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中 12 大 行业 领域 应 用 @ 15 章 大 数据 专题 精 讲 @ 110 多 个 经 典 专家 提醒 
外 120 个 大 数据 应 用 案例 ”150 多 张 图 片 全 程 图 解 


帮助 读者 在 最 短 的 时 间 内 掌控 大 数据 的 秘密 


这 本 书 让 读者 了 解 了 什么 是 大 数据 ， 大 数据 的 潜在 商业 价 
值 ， 大 数据 无 处 不 在 的 应 用 ， 大 数据 对 人 类 生活 带 来 哪些 影响 ， 
大 数据 与 个 人 隐私 及 公共 安全 等 。 同 时 ， 这 本 书 对 于 公共 政策 、 
信息 科学 、 社 会 科学 等 领域 的 交叉 融合 也 具有 启发 意义 。 
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内 容 简 介 


本 书 共 分 为 15 章 ， 具 体内 容 包括 入 门 : 大 数据 的 基本 概念 ， 价值 : 大 数据 商业 变革 ; 
架构 : 大 数据 基础 设施 ， 掌握; 数据 管理 与 挖掘 ; 管理 : 用 数据 洞察 一 切 ; 安全 : 摆脱 大 数 
据 风险 ; 平台 : 信息 通信 大 数据 ;医疗 : 数据 解决 大 难题 ; 网 络 : 抓 牢 数据 发 源 地 ， 零 售 : 
打响 大 数据 之 战 ; 制造 : 更 快 更 好 地 生产 ; 餐饮 : 精准 营销 的 数据 ; 金融 : 大 数据 理财 时 代 ; 
交通 : 畅通 无 阻 的 数据 ;社会 : 用 数据 改变 生活 。 

120 个 精彩 应 用 案例 ， 图 片 精美 ， 闸 述 细致 ， 在 学 习 中 找到 赚钱 商机 ， 从 入 门 到 精通 大 
fe A A 
据 应 用 高 手 ! 

本 书 主要 有 两 个 特色 : 一 是 容易 懂 ， 让 抽象 的 大 数据 落地 到 具体 行业 上 ; 二 是 接地 气 ， 
将 宏观 的 大 数据 与 现实 相 结 合 ， 讲 解 详细 ， 实 用 性 强 。 

本 书 细 节 特 色 : 12 大 行业 领域 应 用 十 15 章 大 数据 专题 精 讲 十 110 多 个 经 典 专 家 提醒 十 120 
个 大 数据 应 用 案例 十 150 多 张 图 片 全 程 图 解 ， 帮 助 读者 在 最 短 的 时 间 内 掌控 大 数据 的 秘密 。 

适合 阅读 本 书 的 读者 : 对 数据 、 数 据 挖掘 、 数 据 分 析 感 兴趣 的 IT 技术 人 员 和 决策 者 ， 以 及 
实业 家 、 企 业 高 管 、 营 销 人 员 、 政 府 媒体 工作 人 员 、 创 业者 、 想 创业 的 人 和 相关 专业 的 学 生 等 。 
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写作 驱动 入 


( 1 ) 基本 概念 : 大 数据 是 指 一 般 的 软件 工具 难以 捕捉 、 管 理 和 
分 析 的 大 容量 数据 ， 一 般 以 “ 太 字 节 ”( terabyte，TB ) 为 单位 。 大 
数据 之 “大 "， 并 不 仅仅 在 于 “容量 之 大 "， 更 大 的 意义 在 于 通过 对 
海量 数据 的 交换 、 整 合 和 分 析 ， 发 现 新 的 知识 ， 创 造 新 的 价值 ， 带 
来 “大 知识 ”"、“ 大 科技 "、“ 大 价值 ”和 “大 发 展 "， 使 我 们 逐渐 走向 
创新 社会 化 的 新 信息 时 代 。 

( 2 ) 市 场 规模 : 根据 IDC ( 国际 数据 公司 ) 的 统计 ，2011 年 
全 球 数 据 总 量 已 经 达到 1.8ZB ( 1ZB 等 于 1 万 亿 GB，1.8ZB 也 就 相 
当 于 18 亿 个 1TB 移动 硬盘 的 存储 量 ), 而 这 个 数值 还 在 以 每 两 年 翻 
一 番 的 速度 增长 ,预计 到 2020 年 全 球 将 拥有 35ZB 的 数据 量 , 增长 
近 20 倍 。 据 统计 ，2012 年 市 场 规模 达到 4.5 亿 元 ，2014 年 还 将 持 
续 发 酵 ， 未 来 三 年 有 望 突破 40 亿 元 ，2016 年 有 望 达到 百 亿 规模 。 

( 3 ) 市 场 前 景 : 在 全 球 方面 , IDC 则 预测 大 数据 技术 与 服务 市 
场 将 从 2010 年 的 32 亿美 元 攀升 至 2015 年 的 169 亿美 元 。 在 国内 ， 
2014 年 将 是 中 国 供应 链 大 数据 快速 发 展 的 一 年 , 供应 链 大 数据 应 用 
企业 必须 提前 布局 占据 有 力 地 位 。 相 关 调 查 显示 ，2013 年 中 国 供应 
链 大 数据 市 场 规模 将 达到 21 亿 元 ， 增 长 率 达 到 38%， 到 2016 年 ， 
中 国 供应 链 大 数据 市 场 规模 将 达到 59.6 亿 元 。 

(4) 应 用 领域 : 大 数据 在 企业 商业 智能 、 公 共 服 务 和 市 场 营销 
三 个 领域 拥有 巨大 的 应 用 潜力 和 商机 。 今 天 ， 大 数据 似乎 成 了 “万 
灵 药 "， 从 总 统 竞选 到 奥斯卡 颁奖 、 从 Web 安全 到 灾难 预测 ， 都 能 
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看 到 大 数据 的 身影 ,正如 那 句 俗 语 :“ 当 你 手 里 有 了 锤子 , 什么 都 看 
上 去 像 钉子 "。 国 内 大 数据 的 推广 ,已 经 渗透 到 了 公共 健康 、 临 床 医 
疗 、 物 联网 、 社 交 网 站 、 社 会 管理 、 零 售 业 、 制 造 业 、 汽 车 保险 业 、 
电力 行业 、 博 彩 业 、 工 业 发 动机 和 设备 、 视 频 游戏 、 教 育 领域 、 体 
育 领域 、 电 信 业 等 多 个 行业 应 用 领域 。 

本 书 深度 结合 了 国内 的 大 数据 发 展 形势 ， 为 读者 介绍 了 简单 易 
行 的 处 理 大 数据 所 需 的 工具 、 过 程 和 方法 ， 并 描绘 了 一 个 易于 实施 
的 行动 计划 ， 以 帮助 读者 发 现 新 的 商业 机 会 ， 实 现 新 的 业务 流程 ， 
做 出 更 明智 的 决策 。 


本 书 特色 入 


最 全 面 的 大 数据 内 容 介 绍 : 本 书 集合 了 大 数据 的 基本 概念 、 基 
础 设施 、 控 掘 方法 、 风 险 管理 、 行 业 应 用 等 内 容 ， 对 大 数据 进行 了 
全 面 的 剖析 。 

最 丰富 的 大 数据 案例 说 明 : 书 中 安排 了 120 个 大 数据 精彩 应 用 
实例 ， 以 实例 + 理论 的 方式 ， 向 读者 展示 了 大 数据 究竟 是 什么 。 

最 完备 的 大 数据 解决 方案 : 书 中 襄 括 了 各 大 主流 行业 的 大 数据 
解决 方案 ， 通 过 详尽 的 分 析 ， 让 读者 看 透 大 数据 从 海量 到 精准 背后 
的 “魔法 "。 


本 书 内 容 各 


全 书 共 分 为 15 章 , 具体 内 容 包 括 入 门 : 大 数据 的 基本 概念 、 价 
值 : 大 数据 商业 变革 、 架 构 : 大 数据 基础 设施 、 掌 握 : 数据 管理 与 
挖掘 、 管 理 : 用 数据 洞察 一 切 、 安 全 : 摆脱 大 数据 风险 、 平 台 : 信 
息 通信 大 数据 、 医 疗 : 数据 解决 大 难题 、 网 络 : 抓 牢 数据 发 源 地 、 
零售 : 打响 大 数据 之 战 、 制 造 : 更 快 更 好 地 生产 、 餐 饮 : 精准 营销 
的 数据 、 金 融 : 大 数据 理财 时 代 、 交 通 : 畅通 无 阻 的 数据 、 社 会 : 
用 数据 改变 生活 。 


适合 读者 入 


本 书 结构 清晰 、 语 言 简洁 ， 适 用 于 所 有 对 数据 、 数 据 挖掘 、 数 
据 分 析 感 兴趣 的 IT 技术 人 员 和 决策 者 阅读 ， 同 时 也 适用 于 实业 家 、 


企业 高 管 、 营 销 人 员 、 政 府 媒 体 工作 人 员 、 创 业者 和 想 创业 的 人 以 
及 相关 专业 的 学 生 等 学 习 参 考 。 


作者 售后 入 


本 书 由 李 军 编著 ， 同 时 参加 编写 的 人 员 还 有 : 苏 高 、 罗 磊 、 刘 
巡 、 罗 林 、 宋 金 梅 、 曾 杰 、 周 旭 阳 、 喜 淑敏 、 谭 俊杰 、 徐 茜 、 杨 端 
阳 、 谭 中 阳 、 张 国文 、 李 四 华 、 陈 国 嘉 等 人 。 由 于 时 间 人 仓促， 加 之 
编者 水 平 有 限 ， 书 中 难免 存在 疏漏 与 不 妥 之 处 ， 欢 迎 广大 读者 来 信 
咨询 和 指正 ， 联 系 邮箱 为 itsir@qq.como 


本 书 声明 入 


本 书 中 所 采用 的 图 片 、 模 型 等 素材 ， 均 为 所 属 公司 、 网 站 或 个 
人 所 有 ， 在 本 书 中 引用 仅 为 说 明之 用 ， 绝 无 侵权 之 意 ， 特 此 声明 。 
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学 前 提示 
互联 网 的 发 展 带动 了 云 计算 、 虚 拟 化 、 大 数据 等 IT 新 技术 的 兴起 ， 各 行业 的 互联 


网 化 日 渐 明显 ， 全 新 IT 时 代 正 在 来 临 。 其 中 ， 大 数据 的 兴起 和 发 展 成 为 新 IT 时 代行 业 
互联 网 化 最 为 典型 的 特征 之 一 。 本 章 将 带领 读者 初步 探索 大 数据 的 秘密 。 


要 点 展示 

<” 初步 认识 ， 大 数据 究竟 是 什么 
< ”预测 未 来 ， 大 数据 的 发 展 趋势 
< ”做 好 准备 ， 大 数据 面 对 的 挑战 


. 请 噬 才 


如 疾 肌 新 三 


| 双重 陡 各 B 江 只 才 .上 > 区 


1.1 砌 步 负 识 ， 大 数据 究竟 是 什么 


随 着 信息 时 代 的 到 来 ， 各 种 数据 围绕 在 我 们 身边 ， 大 数据 时 代 即 将 到 来 。 但 是 ， 很 
多 人 并 不 了 解 大 数据 到 底 是 个 什么 概念 。 

下 面 介 绍 3 个 场景 ， 也 许 你 能 从 其 中 找到 想 要 的 答案 。 

【 场景 1】，2013 年 4 月 15 日 ， 美 国 波士顿 举行 了 第 117 届 波 士 顿 马拉松 大 赛 ， 
在 美 东部 时 间 下 午 2 时 50 分 突然 发 生 两 起 爆炸 ， 发 生地 点 位 于 美国 马萨诸塞 州 波士顿 
科普 里 广场 。 爆 炸 案 发 生 后 ， 美 国联 邦 调查 局 立即 着 手 调查 。 波 士 顿 马拉松 爆炸 案 调 查 
部 门 在 4 月 16 日 表示 ,至少 有 1 枚 炸弹 的 制造 材料 是 日 常 就 可 购 得 的 压力 锅 改造 而 成 
的 ， 推 测 可 能 是 国内 恐怖 分 子 所 为 。 

2013 年 7 月 ， 在 波士顿 爆炸 案 发 生 3 个 月 后 ， 纽 约 萨 克 福 马 县 一 对 夫妻 因为 妻子 
用 谷歌 搜索 了 “高 压 锅 "， 而 丈夫 在 同一 时 段 用 谷歌 搜索 了 “背包 "。 结 果 ， 一 个 由 6 人 
组 成 的 联合 反恐 部 队 ， 利 用 “ 查 水 表 ” 的 名 义 对 这 对 夫妻 进行 盘问 ,“ 你 们 有 炸弹 吗 ? 
你 们 有 高 压 锅 吗 ? 为 什么 只 有 电饭煲 ? 能 拿 来 做 炸弹 吗 ? ” 

为 什么 美国 政府 知道 他 们 有 关 搜 索 情 况 ? 这 一 切 都 归功 于 “棱镜 ”和 谷歌 的 数据 监 
视 。 据 悉 ， 类 似 的 上 门 “ 查 水 表 ” 事 件 ， 联 合 反恐 部 队 每 周 就 要 进行 多 达 上 百 次 。 

由 此 可 见 ， 一 个 人 的 搜索 信息 会 成 为 破案 侦查 的 依据 ， 所 以 请 小 心 了 

【场景 2 ]: 据 某 权威 机 构 分 析 ，5 万 名 手机 用 户 在 3 个 月 内 ,无 论 在 家 附近 活动 还 
是 出 远门 ， 他 们 的 行踪 都 相当 有 规律 。 一 个 人 大 约 93% 的 行踪 在 理论 上 是 可 预测 的 。 当 
配偶 怀疑 对 方 有 了 外 遇 ， 雇 主 怀疑 雇员 把 公司 的 车 辆 挪 为 私 用 ， 或 者 是 父母 想 知 道 他 们 
的 孩子 是 否 去 了 他 们 所 说 的 那个 地 方 ， 这 些 都 可 以 使 用 如 图 1-1 所 示 的 全 球 卫星 定位 系 
统 找到 所 要 的 地 址 等 信息 。 


1 一 


图 1-1 GPS 系统 中 的 地 图 


利用 GPS 定位 系统 ， 再 综合 多 颗 卫星 的 数据 ， 就 可 以 在 全 球 范 围 内 随时 找到 你 或 
者 你 的 车 辆 所 在 的 精确 位 置 ， 如 图 1-2 所 示 。 这 就 是 信息 、 数 据 时 代 的 威力 。 


5911201185 湖南 省 长 沙市 后 多 区 后 艇 大 道 离 大 路 坪 约 23 米 吾 度 地 四 。 “将 看 ”加 全屏 地 图 。 园 显示 所 有 设备 名 
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1-2 GPS 定位 系统 可 以 找到 每 个 人 (上 图 ) 或 者 车 辆 (下 图 ) 的 精确 位 置 

【 场景 3 ]，2014 年 春节 ， 百 度 推 出 了 “百度 迁徙 "， 其 利用 大 数据 技术 ， 对 其 拥有 

的 LBS ( 基于 地 理 位 置 的 服务 ) 大 数据 进行 计算 分 析 ， 并 采用 创新 的 可 视 化 呈现 方式 ， 

在 业界 首次 实现 了 全 程 、 动 态 、 即 时 、 直 观 地 展现 中 国 春节 前 后 人 口 大 迁徙 的 轨迹 与 特 
征 ， 如 图 1-3 所 示 。 查 询 网 址 : http://qianxi.baidu.com/。 
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a 北京 8 小 时 迁徙 图 -ww 


图 


1.1.1 大 数据 基本 定义 


全 国 8 小 时 迁徙 图 -EBw 


图 1-3 ”中国 春 节 前 后 人 口 大 迁徙 的 轨迹 与 特征 


用 户 还 可 以 查询 某 一 个 城市 的 “ 迁 入 城市 "、“ 迁 出 城市 ”的 最 新 数据 迁徙 图 ， 如 查 
“北京 ”的 迁徙 情况 ， 如 图 1-4 所 示 。 


1-4 ”春节 期 间 北 京 的 迁徙 情况 


前 面 洋 洋酒 酒 地 说 了 很 多 ， 


相信 很 多 读者 看 到 过 相关 的 报告 ， 但 是 截至 目前 ， 我 们 


始终 没有 给 出 大 数据 的 定义 ， 也 就 是 说 我 们 并 没有 清楚 地 表述 过 : 大 数据 到 底 是 什么 。 


在 IDC ( Internet Data Center， 互 联网 数据 中 心 ) 的 报告 中 ， 他 们 对 大 数据 进行 了 
一 个 简单 的 描述 : Big data is a big dynamic that seemed to appear from nowhere. But 
in reality, big data isn't new. Instead, it is something that is moving into the mainstream 
and getting big attention, and for good reason. Big data is nota “thing” but instead a 
dynamic/activity that crosses many IT borders。 

中 文 翻译 为 : 大 数据 是 一 个 看 起 来 似乎 来 路 不 明 的 大 的 动态 过 程 。 但 实际 上 ， 大 数 
据 并 不 是 一 个 新 生 事物 ， 虽 然 它 确 确 实 实 正在 走向 主流 和 引起 广泛 的 注意 。 大 数据 并 不 
是 一 个 实体 ， 而 是 一 个 横 跨 很 多 IT 边界 的 动态 活动 。 如 图 1-5 所 示 为 IDC 所 描述 的 大 
数据 世界 。 


图 1-5 IDC 所 描述 的 大 数据 世界 〈 资 料 来 源 : IDC) 


如 果 IDC 的 解释 也 能 算是 大 数据 的 一 种 描述 性 定义 的 话 , 相信 大 部 分 人 应 该 是 很 难 
理解 大 数据 的 。 
因此 ， 想 要 明白 “大 数据 ”的 概念 ， 还 要 从 “大 数据 ”的 名 词 本 身 入 手 。 首 先 要 从 
“大 ”入 手 ， 那 么 “大 数据 ”的 “大 ”到 底 指 的 是 哪些 方面 呢 ? 笔者 认为 ， 大 数据 同 过 
去 的 海量 数据 有 所 区 别 ， 其 基本 特征 可 以 用 4 个 V 来 总 结 ( Volume、Variety、Value 和 
Velocity )， 即 体 量 大 、 多 样 性 、 价 值 密度 低 、 速 度 快 。 
> “数据 体 量 大 : 大 数据 一 般 指 在 10TB 规模 以 上 的 数据 量 。 但 在 实际 应 用 中 ， 很 多 
企业 用 户 把 多 个 数据 集 放 在 一 起 ， 已 经 形成 了 PB 级 的 数据 量 。 
> 数据 多 样 性 : 数据 来 自 多 种 数据 源 ， 数 据 种 类 和 格式 日 渐 丰 富 ， 已 经 冲破 了 以 前 
所 限定 的 结构 化 数据 范畴 ， 圳 括 了 半 结 构 化 和 非 结构 化 数据 。 
> ”价值 密度 低 : 大 数据 所 创造 的 价值 密度 明显 更 低 。 根 据 福利 经 济 学 的 观点 ， 生 产 
率 与 单位 商品 的 价值 无 关 ， 生 产 率 只 与 生产 的 数量 有 关 ， 即 生产 率 高 的 企业 在 相 
同 的 时 间 内 生产 更 多 的 价值 一 一 因而 可 以 把 更 高 的 生产 率 理解 为 通过 生产 和 管理 
技术 的 革新 而 形成 的 更 高 的 劳动 复杂 度 ， 劳 动 复杂 度 的 提高 使 单位 劳动 时 间 具 有 
了 更 大 的 价值 密度 。 
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> ”速度 快 ， 有 数据 显示 ， 在 全 球 范围 内 ， 数 据 量 以 每 年 50% 的 速度 增长 ， 数 据 增长 
的 速度 已 经 远 远 超过 IT 设计 发 展 的 速度 。 数 据 本 身 已 经 成 为 企业 发 展 的 资产 。 快 
速 捕捉 数据 信息 ， 实 现 数字 化 生产 和 管理 ， 已 经 成 为 未 来 企业 赢得 市 场 ， 应 对 行 
业 互 联网 化 的 必 经 之 路 。 
另外 ， 从 “数据 ”这 个 词 来 分 析 ， 大 数据 是 海量 的 ， 是 巨大 的 ， 它 关乎 数据 量 。 笔 
者 认为 可 以 从 3 个 方面 定义 大 数据 : ( 1 ) 数据 量 ; ( 2 ) 广度 、 分 类 ; ( 3 ) 速度 。 简 而 言 之 ， 
大 数据 就 是 一 个 体 量 特别 大 ， 数 据 类 别 特别 丰富 的 数据 集 。 也 就 是 说 “大 数据 ”本 身 并 不 
是 一 种 新 的 技术 ,也 不 是 一 种 新 的 产品 ,而 是 我 们 这 个 时 代 出 现 的 一 种 现象 。 而 这 个 “大 "” 
大 到 了 一 种 什么 样 的 程度 呢 ? 可 以 说 它 即 将 突破 现 有 常规 软件 所 能 提供 的 能 力 极限 。 
综 上 所 述 ， 全 球 最 大 的 战略 咨询 公司 麦肯锡 给 出 了 一 个 十 分 明确 的 定义 ， 大 数据 是 
指 无 法 在 一 定时 间 内 用 传统 数据 库 软 件 工具 对 其 内 容 进 行 抓 取 、 管 理 和 处 理 的 数据 集合 。 
随 着 互联 网 革命 性 地 改变 了 商业 的 运作 模式 、 政 府 的 管理 方法 以 及 人 们 的 生活 方 
式 ， 信 息 的 积累 足以 引发 新 的 变革 。 世 界 充斥 着 比 以 往 更 多 的 信息 ， 信 息 总 量 的 变化 导 
致 了 信息 形态 的 变化 。" 大 数据 ”这 一 概念 应 运 而 生 。" 大 数据 ”不 同 于 互联 网 ， 它 正在 
以 巨大 的 力量 改变 着 世界 ， 它 是 具有 更 强 的 决策 力 、 洞 察 力 、 流 程 优化 能 力 、 高 增长 率 
和 多 样 化 的 信息 资产 。 
如 今 , 数据 库 、 大 数据 已 经 成 为 变革 的 中 心 , 事实 上 可 以 成 为 一 场 革命 。 在 IT 领域 、 
制造 业 、 零 售 业 、 政 府 管 理 、 科 技 领域 ， 大 数据 都 在 改变 着 这 个 世界 的 运行 方式 。 因 此 ， 
我 们 称 之 为 大 数据 的 新 世界 。 


专家 提醒 
数据 基本 单位 换算 : 
1B (byte， 字 节 ) =8b (bit 位 ) 
1KB ( Kilobyte， 千 字 节 ) = 1024B 
1MB (Megabyte， 百 万 字 节 兆 字 节 ， 简 称 “ 光 ”) = 1024KB 
1GB ( Gigabyte， 十 亿 字 节 吉 字 节 ， 又 称 “ 千 光 ”) = 1024MB 
1TB (Trillionbyte， 万 亿 字 节 太 字 节 ) = 1024GB 
1PB (Petabyte， 千 万 亿 字 节拍 字 节 ) = 1024TB 
1EB ( Exabyte， 百 亿 亿 字 节 艾 字 节 ) = 1024PB 
1ZB (Zettabyte， 十 万 亿 亿 字 节 泽 字 节 ) = 1024EB 


1.1.2 大 数据 结构 特征 


如 今 ， 全 球 存 储 的 数据 量 正在 急剧 增长 ， 数 据 量 大 是 大 数据 的 一 致 特征 。 在 2000 
年 ,全 球 存 储 了 800000PB 的 数据 。 预 计 到 2020 年 ,这 一 数字 会 达到 35ZB。 单 单 Twitter 
每 天 就 会 生成 超过 7TB 的 数据 ，Facebook 为 10TB， 一 些 企业 在 一 年 中 每 一 天 的 每 


小 时 就 会 产生 数 TB 的 数据 。 

就 传统 IT 企业 来 看 ， 其 结构 化 和 非 结 构 化 的 数据 增长 也 是 惊人 的 。2005 年 企业 存 
储 的 结构 化 数据 为 4EB， 到 2015 年 将 增 至 29EB， 年 复合 增长 率 逾 20%。 非 结构 化 数 
据 发 展 更 猛 。2005 年 为 22EB，2015 年 将 增 至 1600EB， 年 复合 增长 率 约 60% ， 远 远 
快 于 摩尔 定律 。 

那么 ， 一 分 钟 到 底 会 有 多 少数 据 产 生 呢 ? 


> 
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电子 邮件 用 户 发 送 204166677 条 信息 。 
Google 收 到 超过 2000000 个 搜索 查询 。 
Facebook 用 户 分 享 684478 条 内 容 。 
消费 者 在 网 购 上 花费 272070 美元 。 
Twitter 用 户 发 送 超 过 100000 条 微 博 。 
苹果 公司 收 到 大 约 47000 个 应 用 下 载 。 
Facebook 上 的 品牌 和 企业 收 到 34722 个 “ 赞 "。 
Tumblr 博客 用 户 发 布 27778 个 新 帖子 。 
Instagram 用 户 分 享 36000 张 新 照 片 。 
Flickr 用 户 添 加 3125 张 新 照 片 。 
Foursquare 用 户 执行 2083 次 签到 。 
571 个 新 网 站 诞生 。 

WordPress 用 户 发 布 347 篇 新 博文 。 


由 于 数据 自身 的 复杂 性 ， 作 为 一 个 必然 的 结果 ， 处 理 大 数据 的 首选 方法 就 是 在 并 行 
计算 的 环境 中 进行 大 规模 并 行 处 理 ( Massively Parallel Processing，MPP )， 这 使 得 并 
行 摄取 、 并 行 数据 装载 和 分 析 成 为 可 能 。 实 际 上 ， 大 多 数 的 大 数据 都 是 非 结构 化 或 者 半 
结构 化 的 ， 这 需要 不 同 的 技术 和 工具 来 处 理 和 分 析 。 

大 数据 的 结构 就 体现 了 它 最 突出 的 特征 ， 如 表 1-1 所 示 ， 显 示 了 几 种 不 同 数据 结构 
类 型 数据 的 增长 趋势 。 据 悉 ， 未 来 数据 增长 的 80% ~ 90% 将 来 自 于 非 结 构 化 的 数据 类 型 
( 包括 半 非 结构 化 、 准 非 结构 化 和 非 结构 化 数据 )。 


表 1-1 数据 增长 日 益 趋向 非 结 构 化 


结构 化 进程 数据 内 容 举 例 

结构 化 包括 预定 义 的 数据 类 型 、 格 式 和 结构 的 数据 _| 事务 性 数据 和 联机 分 析 处 理 

y 3 二 自 描述 和 具有 定义 模式 的 

半 结 构 化 具有 可 识别 的 模式 并 可 以 解析 的 文本 数据 文件 XML 数据 文件 

准 结构 化 具有 不 规则 数据 格式 的 文本 数据 ， 通 过 使 用 | 包含 不 一 致 的 数据 值 和 格式 
工具 可 以 使 之 格式 化 的 网 站 点 击 数据 

非 结构 化 没有 固定 结构 的 数据 ， 通 常 将 其 保存 成 不 同 | TXT 文本 文档 、 PDF 文档 、 
类 型 的 文档 图 像 和 视频 


.. 户 菇 寺 


MM 
量 
到 
精 
准 


加 | 总 宫 于 迪 呈 这 实 半 .> 多 


1.1.3 大 数据 与 云 计 算 


在 过 去 3 年 当中 ， 笔 者 经 历 了 大 数据 的 发 展 从 无 到 有 ，3 年 前 可 能 还 没有 人 说 这 个 
词 ， 现 在 已 经 如 火 如 茶 。 现 在 ， 每 天 有 大 量 数据 和 信息 生成 ， 这 为 大 数据 分 析 提供 了 机 
会 。 相 较 于 传统 数据 ， 大 数据 更 能 反映 这 个 世界 的 真实 情况 ， 例 如 ， 人 们 会 上 传 和 公布 
大 量 的 图 片 来 记录 个 人 的 生活 和 社会 的 变化 。 如 今 ， 一 天 之 内 人 们 上 传 的 照片 数量 就 相 
当 于 柯达 发 明胶 卷 之 后 拍摄 的 图 像 总 和 。 

过 去 ， 计 算 机 主要 是 用 于 解决 大 企业 交易 型 的 数据 ， 并 不 会 记录 其 他 无 关 的 信息 ， 
只 有 在 云 计算 产 业 规模 化 发 展 之 后 , 分 布 式 计算 才 给 大 数据 提供 了 记录 的 载体 。 可 以 说 ， 
云 计算 使 大 数据 变 成 可 能 ， 打 个 比方 ， 云 计算 充当 了 工业 革命 时 期 “发 动机 ”的 角色 ， 
而 大 数据 则 是 “ 电 "。 

然而 ， 现 在 除了 数据 本 身 发 生 了 改变 ， 云 计算 也 使 数据 变 得 更 加 分 散 ， 在 这 样 的 趋 
势 下 ， 传 统 数据 库 对 于 海量 数据 存储 的 需求 、 处 理 速 度 的 需求 、 数 据 多样 化 的 需求 难以 
满足 ， 从 而 使 各 种 各 样 的 解决 方案 大 行 其 道 。 

总 之 ， 云 计算 为 大 数据 带 来 了 硬件 存储 的 条 件 一 一 更 便宜 的 分 布 式 运算 存储 ， 而 互 
联网 时 代 的 今天 也 在 不 断 呼唤 数据 应 用 和 服务 。 在 技术 和 需求 的 双重 推动 下 ， 会 有 越 来 
越 多 的 政府 机 构 、 公 司 企业 和 个 人 意识 到 数据 是 巨大 的 经 济 资产 ， 像 货币 或 黄金 一 样 ， 
它 将 带 来 全 新 的 创业 方向 、 商 业 模式 和 投资 机 会 。 

大 数据 和 云 计算 的 区 别 与 联系 如 表 1-2 所 示 。 
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表 1-2 大 数据 和 云 计算 的 区 别 与 联系 
具体 表现 联 系 


大 数据 必须 有 云 作 为 基础 架构 ， 
概念 云 计算 改变 了 IT， 而 大 数据 则 改变 了 业务 | 人 能 得 以 顺畅 运营 


云 计 算是 卖 给 CIO 的 技术 和 产品 ， 是 一 个 | 由 于 它们 能 直接 感受 到 来 自 市 场 
目标 受众 “| 进 阶 的 开 解决 方案 ， 大 数据 是 卖 给 CEO、 | 竞争 的 压力 ， 因 而 必须 在 业务 上 
业务 层 的 产品 ， 大 数据 的 决策 者 是 业务 层 | 以 更 有 竞争 力 的 方式 战胜 对 手 


专家 提醒 
云 计算 和 大 数据 注定 将 带 来 一 次 革命 无论 是 对 社会 、 公 司 和 个 人 来 说 ， 都 是 一 次 世界 
观 的 改变 。 届时， 互联 网 不 再 是 一 个 展示 公司 的 工具 或 平台 ， 而 是 属于 未 来 的 生产 方式 ， 是 
关 平 竞争 和 生存 的 关键 。 


1.1.4 大 数据 规模 预测 
当 你 走 进 一 家 陌生 的 小 餐厅 时 ， 耳 边 响起 只 有 你 才 熟 悉 的 音乐 旋律 。 这 样 的 场景 实 
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现 技术 上 并 不 难 ， 和 餐厅 只 要 读 出 你 的 手机 音乐 下 载 记 录 ， 通 过 数据 分 析 ， 就 可 以 定制 播 
放 你 喜欢 的 音乐 ， 这 就 是 大 数据 时 代 的 潜力 。 
前 面 笔者 已 经 说 了 ， 大 数据 由 4 个 V 组 成 , 这 4 个 V 的 组 合 推动 了 第 5 个 因素 一 一 价 
值 ( Value ) 的 出 现 。 随 着 云 计 算 概念 日 渐 深入 人 心 ， 大 数据 也 越 来 越 受到 关注 。 国 际 知 
名 数据 公司 IDC 在 长 期 对 云 计算 市 场 进行 跟踪 研究 的 同时 , 也 对 大 数据 市 场 保持 着 密切 
关注 。 如 图 1-6 所 示 ，IDC 发 现 ， 目 前 大 数据 对 市 场 的 影响 正 日 益 提 升 ， 已 经 开始 影响 
数据 中 心 设计 、 移 动 应 用 投资 、 数 据 管 理 等 相关 领域 。 
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图 1-6 1DC 全 球 大 数据 市 场 规模 与 预测 


1.1.5 大 数据 的 发 展 史 


今 ， 越 来 越 多 的 企业 参与 到 大 数据 的 竞争 中 来 ， 那 么 “大 数据 ”这 个 词汇 是 如 何 
诞生 以 及 演变 的 呢 ? 

大 数据 是 一 个 修辞 学 意义 上 的 词汇 ， 在 数据 方面 ,“ 大 ”( big ) 是 一 个 快速 发 展 的 术 
语 。 早 在 1890 年 ， 美 国 统计 学 家 苗 尔 曼 。 霍 尔 瑞 斯 为 了 统计 这 一 年 的 人 口 普 查 数据 ， 
发 明了 一 台电 动 器 来 读 取 卡 片上 的 数据 ， 该 设备 让 美国 用 一 年 时 间 就 完成 了 原本 耗 时 8 
年 的 人 口 普 查 活动 ， 由 此 在 全 球 范围 内 引发 了 数据 处 理 的 新 纪元 。 

1961 年 ， 刚 成 立 9 年 的 美国 国家 安全 局 ( NSA ) 是 拥有 超过 12000 个 密码 学 家 的 
情报 机 构 ， 在 间谍 饱和 的 冷战 年 代 ， 面 对 超 量 信息 ， 他 们 开始 采用 计算 机 自动 收集 处 理 
信号 情报 ， 并 努力 将 仓库 内 积压 的 模拟 磁带 信息 进行 数字 化 处 理 。 仅 1961 年 7 月 份 ， 
该 机 构 就 收 到 了 17000 卷 磁 带 。 

起 初 ， 许 多 科学 家 和 工程 师 都 嘲笑 “大 数据 ”只 不 过 是 一 个 营销 术语 。2008 年 末 ， 

“大 数据 ”得 到 部 分 美国 知名 计算 机 科学 研究 人 员 的 认可 ， 业 界 组 织 “ 计 算 社区 联盟 ” 
( Computing Community Consortium ) 发 表 了 一 份 有 影响 力 的 白皮书 《大 数据 计算 》， 
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中 肯 地 阐述 了 大 数据 带 来 的 机 遇 和 挑战 。 

2009 年 5 月 ， 美 国 总 统 巴 拉克 “。 奥巴马 政府 推出 data.gov 网 站 ， 作 为 政府 开放 数 
据 计 划 的 部 分 举措 。 该 网 站 拥有 超过 4.45 万 的 数据 量 集 , 这 样 一 些 网 站 和 智能 手机 应 用 
程序 能 跟踪 如 航班 、 产 品 召回 、 特 定 区 域内 失业 率 等 信息 ， 这 一 行动 激发 了 肯尼亚 、 英 
国 等 政府 相继 推出 类 似 举措 。 

2011 年 2 月 ,扫描 2 亿 页 的 页 面 信息 ， 或 4 兆 兆 字 节 磁盘 存储 ， 只 需 几 秒 即 可 完 
成 。 同 时 ，IBM 的 沃 森 计 算 机 系统 在 智力 竞赛 节目 《危险 边缘 》 中 打败 了 两 名 人 类 挑战 
者 ， 后 来 《纽约 时 报 》 称 这 一 刻 为 “大 数据 计算 胜利 ”的 时 刻 。 

2011 年 , 英国 《 自然》 杂志 曾 出 版 专刊 指出 , 倘若 能 够 更 有 效 地 组 织 和 使 用 大 数据 ， 
人 类 将 得 到 更 多 的 机 会 发 挥 科学 技术 ， 这 对 社会 发 展 有 巨大 的 推动 作用 。 

2012 年 3 月 ， 美 国政 府 报告 要 求 每 个 联邦 机 构 都 要 有 一 个 “大 数据 ”的 策略 ， 作 
为 回应 ， 奥 巴 马 政府 宣布 了 一 项 耗资 两 亿美 元 的 大 数据 研究 与 发 展 项 目 。 

2012 年 7 月 ， 美 国 国务 卿 希拉 里 * 克林顿 宣布 了 一 个 名 为 “数据 2X” 的 公私 合营 
企业 ， 用 来 收集 统计 世界 各 地 的 妇女 和 女童 在 经 济 、 政 治 和 社会 地 位 方面 的 信息 。 

回顾 过 去 的 50 多 年 ,我 们 可 以 看 到 IT 产业 已 经 经 历 了 几 轮 新 兴 和 重 亚 的 技术 浪潮 ， 
如 图 1-7 所 示 。 这 里 面 的 每 一 波浪 潮 都 是 由 新 兴 的 IT 供应 商 主 导 的 , 他们 改变 了 已 有 的 
秩序 ， 重 新 定义 了 已 有 的 计算 机 规范 ， 并 为 进入 新 时 代 铺 平 了 道路 。 


TH 


微型 处 理 器 
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图 1-7 IT 产业 的 发 展 浪潮 
人 们 手中 的 手机 和 移动 设备 是 数据 量 爆炸 的 一 个 重要 原因 ， 目 前 ， 全 球 拥有 50 亿 
台 手 机 用 户 ， 其 中 20 亿 台 为 智能 电话 ， 这 相当 于 20 世纪 80 年 代 20 亿 人 台 IBM 的 大 型 
机 掌握 在 消费 者 手 里 。 

“大 数据 ”是 “数据 化 ”趋势 下 的 必然 产物 。 数 据 化 最 核心 的 理念 是 :“ 一 切 都 被 
记录 ， 一 切 都 被 数字 化 "。 它 带 来 了 两 个 重大 的 变化 : 一 是 数据 量 的 爆炸 性 剧 增 ， 最 近 
两 年 所 产生 的 数据 量 等 同 于 2010 年 以 前 整个 人 类 文明 产生 的 数据 量 总 和 ;二 是 数据 来 
源 的 极 大 丰富 ， 形 成 了 多 源 异 构 的 数据 形态 ， 其 中 非 结构 化 数据 所 占 比重 逐年 增 大 。 


1.1.6 大 数据 技术 架构 


即便 是 在 “摩尔 定律 "， 即 每 18 个 月 芯片 性 能 将 提高 1 倍 的 支撑 下 ， 硬 件 性 能 进化 
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的 速度 也 早已 赶不上 数据 增长 的 速度 了 ， 并 且 差 距 越 来 越 巨大 。 例 如 ， 一 分 钟 之 内 ， 新 
浪 微 博 有 数 万 条 微 博 发 送 ， 苹 果 应 用 商店 下 载 次 数 以 万 计 ， 淘 宝 卖 出 了 几 万 件 商品 ， 百 
度 产 生 了 百 万 次 搜索 查询 …… 所 有 这 些 行为 都 由 海量 的 数据 来 呈现 。 

那么 ， 大 数据 是 通过 什么 样 的 技术 架构 来 接受 、 容 纳 并 处 理 这 些 海量 数据 的 呢 ? 

要 容纳 数据 本 身 ，IT 基础 架构 必须 能 够 以 经 济 的 方式 存储 比 以 往 更 大 量 、 类 型 更 多 
的 数据 。 此 外 ， 还 必须 能 适应 数据 速度 ， 即 数据 变化 的 速度 。 数 量 如 此 大 的 数据 难以 在 
当今 的 网 络 连 接 条 件 下 快速 来 回 移动 。 大 数据 基础 架构 必须 具有 分 布 式 计算 能 力 ， 以 便 
能 在 接近 用 户 的 位 置 进行 数据 分 析 ， 减 少 跨越 网 络 所 引起 的 延迟 。 

因此 ， 云 计算 模式 为 大 数据 的 成 功 提供 了 很 好 的 条 件 ， 以 实现 大 数据 分 析 所 需 的 效 
率 、 可 扩展 性 、 数 据 便 携 性 和 经 济 性 。 另 外 ， 还 可 以 用 来 跨越 毫 不 相干 的 数据 源 比较 不 
同类 型 的 数据 和 进行 模式 匹配 。 这 使 得 大 数据 分 析 能 以 新 视角 挖掘 企业 传统 数据 ， 并 带 
来 传统 上 未 曾 有 过 的 数据 洞察 力 。 

例如 ，Linkedln 是 世界 上 最 大 的 专业 人 士 社交 网 络 ， 在 全 球 范围 内 有 2.25 亿 用 户 ， 
并 且 以 每 秒 2 个 新 用 户 的 速度 增长 。Linkedln 还 是 一 个 解决 方案 供应 商 ， 据悉 ， 目 前 有 
88% 的 财富 100 强 企 业 在 使 用 Linkedln 的 付费 解决 方案 ，Linkedln 还 有 超出 290 万 的 
公司 主页 及 相关 信息 。 

Linkedln 之 所 以 取得 如 此 大 的 成 功 ， 是 因为 他 们 有 专业 的 身份 可 以 拓展 人 脉 发 现 机 
遇 ， 专 业 的 内 容 全 方位 掌握 业界 资讯 ， 专 业 的 平台 随时 随地 了 解 人 脉动 向 。 

从 Linkedln 的 业务 模型 不 难看 出 ,其 本 身 就 拥有 海量 的 数据 ,通过 这 些 数据 创造 出 
有 价值 的 产品 和 服务 ， 来 增加 用 户 数量 和 用 户 黏 性 ， 这 样 数据 还 会 不 断 增 长 从 而 形成 一 
个 “闭环 "。Linkedln 有 人 才 、 市 场 、 高 级 订阅 服务 三 大 商业 解决 方案 ， 而 且 三 大 商业 
解决 方案 的 盈 收 每 年 也 呈 翻 倍增 长 趋势 ， 而 其 中 占 盈 收 比例 最 大 的 是 人 才 解 决 方案 。 

另外 ,Linkedln 的 数据 按 用 户 可 分 为 用 户 特征 数据 、 用 户 行为 数据 、 用 户 网 络 数据 ; 
按 数据 存 取 速 度 可 分 为 在 线 数据 、 近 线 数 据 、 离 线 数据 。Linkedln 的 三 级 数据 架构 根据 
不 同性 质 的 工作 设计 ， 其 中 近 线 数据 存储 在 Voldemort 分 布 式 数据 库 中 ， 在 线 数据 存储 
在 Oracle 和 Espresso 中 ， 服 务 器 日 志 存储 在 Web Logs 中 。 使 用 Kafka 发 布 数据 ， 通 
过 Databus 捕获 在 线 数 据 ， 而 所 有 的 离线 数据 由 Hadoop 和 Teradata 数据 库 构 成 。 

基于 上 述 考 虑 ， 大 数据 可 以 采用 四 层 堆 栈 式 技术 架构 ， 如 表 1-3 所 示 。 
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表 1-3 采用 四 层 堆栈 式 技术 架构 的 大 数据 
作 用 


基础 层 基础 的 最 底层 分 布 式 ; 横向 可 | 这 个 基础 设施 需要 从 以 前 的 存储 孤岛 发 展 为 
也 是 基础 层 ”| 扩展 体系 结构 ”| 具有 共享 能 力 的 高 容量 存储 池 。 容 量 、 性 能 
加 和 吞吐 量 必须 可 以 线性 扩展 
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层 7 人 说 明 作 用 
由 于 并 行 化 和 分 布 式 是 大 数据 管理 平台 所 必 
均 
本 层 既 包括 数据 从 的 ,用 | 须 考虑 的 要 素 ， 因 此 要 支持 在 多 源 数据 上 做 
管理 层 | 的 存储 和 管理 , 也 深层 次 的 分 析 ， 大 数据 技术 架构 中 需要 一 个 


四 行 处 理 ， 
涉及 数据 的 计算 ?并 行 处 理 


管理 平台 ， 使 结构 化 和 非 结 构 化 数据 可 一 体 
化 管理 ， 具 备 实时 传送 和 查询 、 计 算 功 能 
分 析 层 提供 基于 统计 学 的 数据 挖掘 和 机 器 学 
.6 | 提供 自助 服务 ; | 习 算 法 ， 用 于 分 析 和 解释 数据 集 ， 帮 助 企业 
分 析 层 ee 使 用 灵活 , 实时 | 获得 对 数据 价值 深入 的 领悟 。 可 扩展 性 强 、 
协作 使 用 灵活 的 大 数据 分 析 平 台 更 可 成 为 数据 科 
学 家 的 利器 ， 从 而 达到 事半功倍 的 效果 
大 数据 的 价值 体 | 提供 实时 决策 ，| 不 同 的 新 型 商业 需求 驱动 了 大 数据 的 应 用 。 
现在 帮助 企业 进 | 内 置 预测 能 力 ; | 反之， 大 数据 应 用 为 企业 提供 的 竞争 优势 使 
应 用 层 | 行 决策 , 以 及 为 终 | 利 用 数据 驱动 | 得 企业 更 加 重视 大 数据 的 价值 。 新 型 大 数据 
端 用 户 提供 服务 | 经 济 , 使 数据 实 | 应 用 对 大 数据 技术 不 断 提出 新 的 要 求 ， 大 数 
应 用 现货 币 化 据 技 术 也 因此 在 不 断 地 发 展 变化 中 日 趋 成 熟 


线性 可 扩展 


专家 提醒 
云 模型 鼓励 访问 数据 并 提供 弹性 资源 池 来 应 对 大 规模 问题 ， 其 解决 了 如 何 存储 大 量 数 
据 ， 以 及 如 何 积 聚 所 需 的 计算 资源 来 操作 数据 的 问题 。 在 云 中 ， 数 据 可 跨 多 个 节点 调配 和 分 
这 使 得 数据 更 接近 需要 它 的 用 户 ， 从 而 缩短 响应 时 间 和 提高 生产 率 。 


1.1.7 大 数据 重要 的 理由 


人 们 为 什么 如 此 关心 大 数据 呢 ? 其 实 大 数据 可 以 使 我 们 提出 新 问题 ， 来 了 解 我 们 的 
业务 。 例 如 社交 网 络 分 析 ， 一 个 企业 ， 即 使 你 是 一 个 个 体 ， 你 也 有 一 个 品牌 ， 如 何 分 析 
你 的 品牌 影响 力 、 品 牌 声誉 ， 这 些 问 题 之 前 不 容易 回答 ， 如 今 在 大 数据 的 时 代 可 以 很 容 
易 得 到 答案 ， 并 且 几 乎 是 以 实时 的 速度 来 解答 。 

例如 ， 有 一 家 物流 公司 ， 有 卡车 等 运输 工具 ， 希 望 优化 车 队 的 运输 路 线 ， 提 高 运输 
效率 ， 并且 基于 实时 的 交 送 信息 、 天 气 信息 及 其 他 类 型 的 信息 。 现 在 通过 传感器 和 大 数据 
就 可 以 做 到 。 事 实 上 ， 关 于 过 去 和 现在 ， 甚 至 是 未 来 的 事务 ， 大 数据 分 析 都 能 够 用 得 上 。 

专家 提醒 

虽然 大 数据 是 一 个 重大 问题 ， 但 笔者 认为 ， 真 正 的 问题 是 如 何 让 大 数据 更 有 意义 ， 如 何 
在 大 数据 里 面 寻找 模式 帮助 组 织 机 构 做 出 更 好 的 商业 决策 。 


当前 ， 随 着 互联 网 科技 的 日 益 成 熟 ， 各 种 类 型 数据 的 增长 将 会 超越 历史 上 任何 一 个 
时 期 。 因 此 ， 用 户 想 要 从 这 庞大 的 数据 库 中 提取 对 自己 有 用 的 信息 ， 就 离 不 开 大 数据 分 
析 技 术 和 工具 。 如 表 1-4 所 示 ， 向 大 家 展示 了 大 数据 分 析 将 越 来 越 重要 的 10 个 理由 。 


表 1-4 大 数据 分 析 为 何 重要 的 理由 


理 由 说 明 

Hadoop 用 户 越 来 越 多 的 企业 开始 使 用 Hadoop 平台 处 理 大 量 数 据 。 例 如 ，2009 年 Hadoop 

迅速 增长 服务 提供 商 总 共 只 有 9 家 ， 而 在 2012 年 就 已 经 超过 了 120 家 

Hadoop 整合 仅 靠 Hadoop 服务 是 无 法 解决 企业 的 大 数据 问题 的 , 很 多 传统 的 数据 库 管理 

功能 加 深 系统 开始 整合 Hadoop 服务 ， 以 便 更 好 地 为 企业 服务 。 例 如 ， 惠 普 、 戴 尔 、 
甲骨 文 、IBM 等 知名 公司 都 分 别 有 针 对 自家 需求 的 Hadoop 服务 

ee 云端 上 的 Hadoop 服务 让 大 数据 分 析 和 处 理 更 加 方便 快捷 

原始 数据 的 在 相关 大 数据 分 析 处 理 技术 出 现 之 前 ，IT 公司 经 理 们 通常 要 对 公司 数据 进 

价值 行 筛选 以 便 用 户 查询 和 分 析 ， 现 在 ， 各 种 大 数据 分 析 工 具 既 方便 用 户 查 询 
分 析 数 据 ， 又 能 避免 泄露 公司 机 密 ， 同 时 ， 所 有 原始 数据 都 将 完好 保存 

大 数据 开发 技 | 阻碍 大 数据 分 析 技 术 或 是 使 用 Hadoop 的 原因 之 一 就 是 缺乏 相应 的 技术 、 环 

术 的 “ 短 板 ” | 境 、 数 据 安 全 以 及 可 行 性 。 幸 好 ， 许 多 开源 和 专利 软件 社区 都 已 经 着 手 解 

得 以 解决 决 这 些 问题 了 ， 使 大 数据 的 “ 短 板 ” 逐 渐 消 失 

家 61 案 简 分 术 许多 传统 企业 人 电信 公司 和 零售 商 ) 都 开始 使 用 Hadoop 服务 ， 

将 成 为 主流 但 很 少 有 人 愿意 分 享 所 有 细节 ， 所 以 很 难 找 出 一 个 真正 的 ROI (投资 回报 
率 ) 案例 进行 分 析 ， 这 促使 大 数据 分 析 势 在 必 行 

其 他 大 数据 分 | 一 说 到 大 数据 ， 很 多 人 第 一 时 间 想 到 的 就 是 Hadoop， 其 实 还 有 许多 其 他 不 

析 平 台 的 兴起 | 错 的 大 数据 分 析 平 台 ， 如 Platfora、Datahero 等 

磁盘 终 将 被 目前 ， 应 该 有 一 半 以 上 的 企业 还 在 利用 磁盘 进行 数据 存档 、 备 份 和 恢复 。 

历史 淘汰 但 随 着 大 数据 分 析 技 术 日 渐 成 熟 ， 磁 盘 终 将 被 淘汰 

机 器 学 习 和 人 | 机 器 学 习 和 人 工 智 能 正在 崛起 ， 但 在 银行 、 金 融 服务 、 电 信和 以 及 制造 等 传 

工 智能 的 崛起 | 统 行业 它们 仍 是 十 分 稚嫩 的 新 兴 技 术 

Hadoop 将 Hadoop 仍 处 在 初级 阶段 ， 未 来 还 将 具备 更 多 功能 ， 例 如 ， 自 由 文本 搜索 功 

继续 发 展 E 以 及 基于 GUI (图 形 用 户 界面 ) 的 可 视 化 工具 


对 大 企业 而 言 ， 大 数据 的 兴起 ， 首 先 ， 是 因为 计算 能 力 可 以 更 低 的 成 本 获得 ， 且 各 类 系 
统 如 今 已 能 够 支持 多 任务 处 理 ; 其 次 ， 内 存 的 成 本 也 在 直线 下 降 ， 企 业 可 以 在 内 存 中 处 理 比 
以 往 更 多 的 数据 ; 最 后 ， 把 计算 机 聚合 成 服务 器 集群 越 来 越 简单 。 
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1.1.8 大 数据 的 解决 方案 


当前 ， 越 来 越 多 的 企业 将 大 数据 的 分 析 结 果 作 为 其 判断 未 来 发 展 的 依据 。 同 时 ， 传 
统 的 商业 预测 逻辑 正 日 益 被 新 的 大 数据 预测 所 取代 。 既 然 大 数据 如 此 重要 ， 那 么 大 数据 
解决 方案 是 否 可 以 完全 替代 传统 的 数据 库 解决 方案 呢 ? 

在 这 里 ， 笔 者 先 不 说 出 答案 ， 而 是 先 带 大 家 看 一 个 典型 的 案例 : 

例如 ， 一 个 优秀 的 棒球 运动 员 知 道 自己 的 哪 一 只 手 更 擅长 抛 球 ， 哪 一 只 手 更 擅长 接 
球 。 就 像 这 样 一 种 情形 ， 每 只 手 可 以 尝试 执行 它 天 生 不 适合 的 任务 ， 但 会 非常 笨拙 ， 因 
此 ， 通 常 不 会 看 到 棒球 运动 员 使 用 一 只 手 接 球 ， 停 下 来 ， 丢 掉 他 们 的 手套 ， 然 后 使 用 同 
一 只 手 抛 球 。 棒 球 运 动员 的 左手 和 右手 协同 起 来 会 实现 最 佳 的 结果 。 

上 面 的 例子 就 是 传统 数据 库 和 大 数据 技术 的 一 个 简单 类 比 : 没有 这 两 个 重要 实体 的 
协同 工作 ， 任 何 组 织 或 结构 的 信息 平台 都 很 难得 到 进一步 发 展 ， 因 为 就 像 棒球 运动 员 协 
调 双手 来 抛 接 棒球 一 样 ， 一 个 团结 一 致 的 分 析 生态 系统 才能 实现 最 佳 的 结果 。 

此 时 ， 我 们 经 过 初步 分 析 就 可 以 了 解 到 ， 有 些 类 型 的 问题 不 是 本 来 就 属于 传统 数据 
库 的 ， 至 少 在 最 初 不 是 ， 而 且 也 不 确定 是 否 希 望 将 一 些 数据 放 在 仓库 中 ， 因 为 我 们 不 知 
道 它 是 否 拥 有 较 高 的 价值 、 是 否 是 非 结 构 化 的 ， 或 者 是 否 太 庞大 了 。 更 多 的 情况 是 ， 在 
投入 精力 和 金钱 将 数据 放 在 仓库 之 后 ， 才 能 发 现 每 个 字 节 的 数据 价值 ， 但 我 们 希望 在 投 
资 之 前 ， 就 能 明确 该 数据 值得 保存 ， 并 拥有 较 高 的 价值 。 

典型 的 大 数据 解决 方案 应 该 是 具有 多 种 能 力 的 平台 化 解决 方案 ， 这 些 能 力 包括 结构 
化 数据 的 存储 、 计 算 、 分 析 和 挖掘 ， 多 结构 化 数据 的 存储 、 加 工 和 处 理 ， 以 及 大 数据 的 
商务 智能 分 析 。 笔 者 认为 ， 这 种 解决 方案 在 技术 上 应 具有 以 下 4 个 特性 : 软 硬 集成 化 的 
大 数据 处 理 能 力 、 全 结构 化 数据 处 理 的 能 力 、 大 规模 内 存 计 算 的 能 力 、 超 高 网 络 速度 访 
问 的 能 力 。 

因此 ， 你 一 定 要 认识 到 传统 数据 库 技术 是 整体 解决 方案 中 一 个 重要 且 相 关 的 部 分 。 
事实 上 ， 它 们 在 与 你 的 大 数据 平台 结合 使 用 时 会 变 得 更 加 重要 。 

专家 提醒 

当前 ， 越 来 越 多 的 企业 将 大 数据 的 分 析 结 果 作 为 其 判断 未 来 发 展 的 依据 。 同时 ， 传 统 的 
商业 预测 逻辑 正 日 益 被 新 的 大 数据 预测 所 取代 . 但 是 ,笔者 觉得 大 家 对 于 大 数据 的 期 望 值 要 
谨慎 一 些 ， 因 为 海量 数据 只 有 在 得 到 有 效 治理 的 前 提 下 ， 才 能 进一步 发 挥 其 价值 。 


1.2 ”预测 末末 ， 大 数据 网 恢 展 址 狸 


据悉 ， 在 1993 年 的 美国 《纽约 人 》 杂 志 上 刊登 了 一 幅 标题 为 “互联 网 上 ， 没 有 人 


DB 


知道 你 是 一 条 狗 ” 的 漫画 ,而 作者 彼得 * 施 泰 纳 也 因此 赚 取 了 超过 5 万 美元 。 此 后 的 20 
年 间 ， 互 联网 发 生 了 巨大 的 变化 ， 移 动 互 联 、 社 交 网 络 及 电子 商务 大 大 拓展 了 互联 网 的 
疆界 和 应 用 领域 。 

如 今 ， 我 们 在 享受 便利 的 同时 ， 也 无 偿 贡 献 了 自己 的 “行踪 "， 现 在 互联 网 不 但 知 
道 对 面 是 一 只 狗 ， 甚 至 还 知道 这 只 狗 喜 欢 什么 食物 ， 几 点 出 去 还 弯 ， 几 点 回 窝 睡 觉 。 每 
个 人 在 互联 网 进入 到 大 数据 时 代 , 都 将 是 透明 性 存在 的 , 可 以 说 是 “处 处 行 迹 处 处 留 痕 "。 

收集 并 分 析 海 量 的 各 种 类 型 数据 ， 并 快速 获取 影响 未 来 的 信息 的 能 力 ， 这 就 是 大 数 
据 技术 的 魅力 。 事 实 上 大 数据 的 来 源 非常 广泛 ， 天 上 的 卫星 、 地 上 的 汽车 、 埋 在 土壤 里 
面 的 各 类 传感器 ， 无 时 无 刻 不 在 生成 大 量 的 数据 。 这 些 数据 如 果 加 以 综合 利用 ， 产 生 的 
社会 价值 和 经 济 价值 将 是 难以 估量 的 。 大 数据 技术 让 人 们 看 到 未 来 解决 预测 问题 的 一 丝 
曙光 。 


1.2.1 大 数据 手动 全 世界 


大 数据 不 仅 体现 为 数据 量 的 惊人 增长 ， 更 前 所 未 有 地 引入 了 正在 不 断 扩展 中 的 数据 
类 型 。 从 量 的 增长 来 看 ， 根 据 IDC ( 国际 数据 公司 ) 的 跟踪 分 析 ， 全 球 产 生 的 数据 总 量 
2011 年 已 经 达到 1.8ZB ( 1ZB 等 于 1 万 亿 GB，1.8ZB 也 就 相当 于 18 亿 个 1TB 移动 硬 
盘 的 存储 量 ); 2012 年 达到 约 2.8ZB, 但 当年 全 球 产 生 的 数据 中 仅 有 约 0.5% 得 到 有 效 分 
析 。 据 悉 ， 到 2020 年 ， 全 球 数据 总 量 中 有 22% 将 来 自 中 国 。 

电 商 投放 广告 、 物 流 调度 运力 、 证 监 会 抓 老鼠 仓 、 金 融 机 构 卖 基金 、 民 航 节 约 成 本 、 
农民 破解 猪 周期 、 制 片 人 拍 电 影 …… 看 似 毫 不 相关 的 事情 ， 背 后 都 有 大 数据 在 发 力 。 随 
着 互联 网 、 移 动 互联 网 对 各 个 领域 的 渗透 越 来 越 深 ， 从 政府 到 企业 ， 从 群体 到 个 人 ， 
数据 的 积累 与 日 俱 增 。4G 牌照 的 发 放 ， 又 让 移动 数据 通道 由 “乡村 公路 ”升级 为 “高 
速 公 路 "。 

与 此 同时 ， 社 会 上 的 各 行 各 业 ， 从 电信 、|IT 业 ， 到 人 金融、 证券、 保险、 航空、 酒店 
服务 业 等 ， 地 球 上 的 各 种 存在 事物 ， 从 每 个 人 到 每 棵 树 、 每 采花 乃至 每 粒 沙子 ， 无 一 例 
外 地 都 在 成 为 大 数据 的 生成 者 。 笔 者 可 以 预见 ， 大 数据 席卷 各 行 各 业 和 人 们 生活 的 速度 
只 会 越 来 越 快 。 

例如 ， 世界 上 第 一 部 “ 先 拍 照 后 对 焦 ” 光 场 相机 Lytro， 就 运用 了 大 数据 处 理 分 析 理 
念 。 与 传统 相机 只 记录 一 束 光 不 同 ，Lytro 可 以 记录 整个 光 场 里 所 有 的 光 , 也 就 是 用 总 体 
数据 取代 了 随机 样本 。 用 户 没 必要 一 开始 就 对 焦 ， 想 要 什么 样 的 照片 可 以 在 拍摄 之 后 再 
决定 。 

因此 ， 究 竟 该 如 何 “开采 ”大 数据 这 座 丰 富 的 矿藏 ， 成 为 了 一 个 令 人 着 迷 的 问题 ， 
因为 与 正确 答案 相 随 的 将 是 谁 都 渴望 的 巨大 商业 成 功 。 当 前 ， 伴 随 着 变革 的 发 生 ， 传 统 
的 互联 网 企业 已 经 站 在 了 大 数据 时 代 的 最 前 沿 。 作 为 后 PC 时 代 的 4 大 巨头 , Facebook、 
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谷歌 、 苹 果 、 亚 马 逊 正在 成 为 大 数据 的 拥有 者 和 使 用 者 ， 其 主要 特点 如 表 1-5 所 示 。 
表 1-5 4 大 互联 网 企业 的 大 数据 策略 


互联 网 企业 大 数据 策略 

Facebook 依靠 其 强大 的 社交 网 络 ， 已 然 成 为 业界 第 一 个 生成 大 数据 的 “ 巨 鲍 ” 

苹果 依靠 操作 系统 和 苏 覆 性 的 终端 ， 正 在 努力 打造 大 数据 的 生成 之 地 

谷歌 主要 依靠 操作 系统 、 搜 索引 擎 和 “Google+” 平 台 整 合 终端 产品 ， 以 储备 可 以 
利用 的 大 数据 

亚马逊 作为 云 计 算 的 最 早 倡导 者 之 一 ， 则 通过 网 络 平台 、 云 计算 平台 和 阅读 终端 ， 


期 望 建立 起 一 个 电子 商务 垂直 领域 的 大 数据 汇集 地 


大 数据 ， 正 在 报 动 全 世界 的 神经 , 无 论 是 国家 、 企 业 , 还 是 每 一 个 独立 存在 的 个 人 ， 
都 将 成 为 大 数据 时 代 的 贡献 者 和 受益 者 。 


专家 提醒 
目前 ,数据 量 的 大 幅 增加 对 人 们 注重 精确 性 的 习惯 提出 了 挑战 。 大 数据 需要 技术 和 思维 
上 的 变革 才能 利用 ， 才 能 做 到 从 海量 到 精准 。 这 一 轮 的 变革 ， 事 关 绝 大 多 数 企业 的 命运 。 可 
以 看 到 ， 用 大 数据 这 个 视角 ， 可 以 考察 企业 的 兴衰 。 第 一 ， 如 果 对 大 数据 不 关心 ， 不 了 解 ， 
必 将 走向 衰败 ; 第 二 ， 拥 有 大 量 的 数据 并 善 加 运用 的 公司 ， 必 将 赢得 未 来 。 时 代 变 了 ， 判 断 
企业 价值 的 标准 、 判 断 软件 价值 的 标准 也 变 了 。 


1.2.2 大 数据 是 大 势 所 趋 


大 数据 有 多 火 ? 有 媒体 将 2013 年 称 为 “大 数据 元 年 "。 目 前 ， 几 乎 所 有 世界 级 的 互 
联网 企业 ， 都 将 业务 触角 延伸 至 大 数据 产业 ;无 论 是 社交 平台 逐鹿 、 电 商 价格 大 战 还 是 
门户 网 站 竞争 ， 都 有 它 的 影子 。2012 年 ， 美 国政 府 投资 两 亿美 元 启动 “大 数据 研究 和 发 
展 计划 "， 更 将 大 数据 上 升 到 国家 战略 层面 。 大 数据 ， 正 在 由 技术 热 词 转变 为 一 股 社会 
浪潮 ， 影 响 社会 生活 的 方方面面 。 

星巴克 有 意 推 出 的 “大 数据 咖啡 杯 ” 就 是 个 小 小 的 例子 。 美 国 媒体 报道 ， 这 家 咖啡 
连锁 巨头 打算 试验 在 一 些 咖 啡 杯 中 装 上 传感器 ， 收 集 常客 喝 咖 啡 速度 等 数据 ， 从 而 为 喝 
咖啡 较 慢 顾 客 提供 保温 效果 好 的 杯子 ， 以 提高 其 满意 度 和 忠诚 度 。 

又 例如 ， 在 2008 年 初 ， 阿 里 巴巴 平台 上 整个 买 家 询 盘 数 急剧 下 滑 ， 欧 美 对 中 国 采 
购 量 也 在 下 滑 。 通 常 而 言 ， 买 家 在 采购 商品 前 ， 会 比较 多 家 供应 商 的 产品 ， 反 映 到 阿里 
巴巴 网 站 统计 数据 中 ， 就 是 查询 点 击 的 数量 和 购买 点 击 的 数量 会 保持 一 个 相对 的 数值 。 
阿里 巴巴 平台 通过 统计 历史 上 所 有 买 家 、 卖 家 的 询 价 和 成 交 的 数据 ， 可 以 形成 询 盘 
指数 和 成 交 指数 。 这 两 个 指数 是 密切 相关 的 : 询 盘 指数 是 前 兆 性 的 ,前 期 询 盘 指数 活跃 ， 
就 会 保证 后 期 一 定 的 成 交 量 。 因 此 ， 当 马云 观察 到 询 盘 指数 异乎 寻常 地 下 降 ， 自 然 就 可 


以 推测 未 来 成 交 量 的 萎缩 。 这 种 统计 和 分 析 ， 如 果 缺 少 大 数据 技术 的 支持 ， 是 难以 完成 
的 。 这 次 事件 ， 马 云 得 以 提前 呼吁 ， 帮 助 成 千 上 万 的 中 小 制造 商 准 备 “ 过 冬 粮 "， 从 而 
赢得 了 很 高 的 声誉 。 

因此 ， 大 数据 是 一 种 新 的 价值 观 和 方法 论 ， 人 们 面 对 的 不 再 是 随机 样本 而 是 全 体 数 
据 ， 不 是 精确 性 而 是 混杂 性 ， 不 是 因果 关系 而 是 相关 关系 。 


1.2.3 大 数据 将 成 为 资产 


众所周知 ， 用 户 的 消费 习惯 、 兴 趣 爱好 、 关 系 网 络 以 及 整个 互联 网 的 趋势 、 潮 流 都 
将 成 为 互联 网 从 业者 关注 的 热点 ， 而 这 一 切 的 获取 和 分 析 都 离 不 开 大 数据 ， 因 为 在 社会 
化 媒体 基础 上 的 大 数据 挖掘 和 分 析 都 会 衍生 很 多 应 用 。 例 如 ， 帮 企业 做 内 部 数据 挖掘 ， 
帮 有 企业 找 到 更 精准 用 户 ， 降 低 营销 成 本 ， 提 高 企业 销售 率 ， 增 加 利润 等 。 

大 数据 、 社 会 化 媒体 营销 真正 实现 了 营销 模式 的 “量体裁衣 " ， 这 是 营销 领域 跨 时 
代 的 进步 。 未 来 企业 的 竞争 ， 将 是 拥有 数据 规模 和 活性 的 竞争 ， 将 是 对 数据 解释 和 运用 
的 竞争 。 

随 着 技术 的 发 展 ， 大 数据 社会 化 营销 将 是 未 来 营销 的 主 战场 ， 即 将 到 来 的 大 数据 时 
代 可 以 在 任何 行业 ， 任 何 服务 上 出 现 ， 由 此 可 能 产生 的 服务 和 商业 模式 将 是 无 穷尽 的 。 
笔者 认为 ， 围 绕 大 数据 至 少 可 以 演绎 出 6 种 新 的 商业 模式 ， 如 表 1-6 所 示 。 


表 1-6 6 种 新 的 商业 模式 
商业 模式 主要 特点 


出 租 或 出 售 | 即 通过 出 售 广泛 收集 、 精 心 过 滤 时 效 性 强 的 数据 来 获得 收益 ， 这 也 是 “数据 就 


数据 是 资产 ”的 最 经 典 诠释 
出 租 或 出 售 需要 注意 的 是 ， 这 里 的 信息 指 的 是 经 过 加 工 处 理 ， 承 载 一 定 行业 特征 的 数据 集 
合 。 一 般 来 讲 聚 焦 某 个 行业 ， 广 泛 收集 相关 数据 ， 深 度 整 合 莱 取 信息 ， 以 庞大 


he 的 数据 中 心 加 上 专用 传播 渠道 ， 也 可 取得 成 功 
数字 媒体 精 这 个 模式 最 性 感 ， 因 为 全 球 广告 市 场 空间 是 5000 亿美 元 , 具备 培育 干 亿 级 公司 
准 营销 的 土壤 和 成 长 空间 。 这 类 公司 的 核心 资源 是 获得 实时 、 海 量 、 有 效 的 数据 ， 立 


身 之 本 是 大 数据 分 析 技术 ， 盘 利 来 源 是 精准 营销 

该 模式 令 人 着 迷 之 处 在 于 ， 如 果 没 有 大 量 的 数据 ， 缺 乏 有 效 的 数据 分 析 技 术 ， 
数据 分 析 这 些 公司 的 业务 其 实 难以 开展 。 例 如 ， 以 阿里 金融 为 代表 的 小 额 信 贷 公 司 ， 通 
业务 过 在 线 分 析 小 微型 企业 的 交易 数据 、 财 务 数据 ， 甚 至 可 以 计算 出 应 提供 多 少 贷 
款 ， 多 长 时 间 可 以 收回 等 关键 问题 ， 把 坏账 风险 降 到 最 低 


传统 的 IDC 和 互联 网 巨头 们 都 在 提供 此 类 服务 ， 而 且 其 他 IT 企业 也 纷纷 嗅 到 
运营 数据 了 大 数据 的 商机 ， 开 始 抢占 个 人 、 企 业 的 数据 资源 。 海 外 的 Dropbox， 国 内 微 
空间 盘 都 是 此 类 公司 的 代表 。 这 类 公司 的 想象 空间 是 它 可 以 成 长 为 数据 聚合 平台 ， 
便利 模式 将 趋 于 多 元 化 
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续 表 


商业 模式 主要 特点 


从 数据 量 上 来 看 ， 非 结构 化 数据 是 结构 化 数据 的 5 倍 以 上 ， 任 何 一 个 种 类 的 非 
大 数据 处 理 | 结构 化 数据 处 理 ， 都 可 以 重 现 现 有 结构 化 数据 的 辉煌 。 语 音 数据 处 理 领域 、 视 
业务 频数 据 处 理 领 域 、 语 义 识别 领域 、 图 像 数 据 处 理 领 域 都 可 能 出 现 大 型 的 、 高 速 
成 长 的 公司 


如 今 ,，“" 大 数据 ”这 一 话题 在 国内 受到 投资 者 追捧 ， 也 不 断 有 高 技术 人 才 选 择 这 个 
方向 创业 ; 但 实际 上 国外 对 于 “大 数据 "， 已 经 走 过 了 概念 炒作 阶段 ， 进 入 到 实际 的 应 
用 ， 产 生 了 实际 的 效益 。 例 如 ， 美 国 奥巴马 政府 已 经 开始 大 规模 地 投资 大 数据 领域 ， 这 
是 大 数据 从 商业 行为 上 升 到 国家 战略 的 分 水 岭 ， 表 明 大 数据 正式 提升 到 战略 层面 ， 大 数 
据 在 经 济 社会 各 个 层面 、 各 个 领域 都 开始 受到 重视 。 笔 者 相信 ,， "大 数据 ”将 领跑 新 一 
轮 互联 网 投资 高 潮 ， 让 资产 逐步 变 成 资本 。 


1.2.4 大 数据 时 代 的 转变 


互联 网 的 重心 逐步 向 着 移动 互联 转移 ， 各 种 新 型 智能 移动 设备 的 迅速 普及 带 来 了 海 
量 数据 的 爆发 。 于 是 大 家 都 在 谈论 大 数据 ， 大 家 都 想 用 好 大 数据 。 但 你 真 的 了 解 大 数据 
吗 ? 当前 的 行业 状况 又 是 怎样 ? 

事实 上 ， 大 数据 只 是 一 种 提 法 ， 其 形态 本 身 是 数据 云 。 因 此 ， 以 实时 感知 、 分 析 、 
对 话 、 服 务 能 力 为 基础 ， 让 数据 流 成 为 商业 、 营 销 活动 的 核心 才 是 关键 。 怎 样 才能 让 这 
些 大 数据 更 好 地 为 产品 或 营销 服务 ， 搞 清楚 大 数据 时 代 的 业界 生态 必 不 可 少 。 

我 们 可 以 结合 互联 网 数据 中 心 ( Data Center of China Internet，DCCI ) 发 布 的 数 
据 报告 一 起 来 看 看 。 

1.， 互联 网 生态 结构 : 传统 互联 网 一 移动 互联 网 

据 市 场 研究 机 构 IDC 预测 ，2013 年 全 球 智 能 手机 出 货 量 将 超过 10 亿 部 ， 这 个 数字 
意味 着 它 比 2012 年 增长 了 近 40%。 
同时 关于 三 大 移动 智能 操作 系统 ， 我 们 还 得 到 这 样 一 组 数据 ， 如 表 1-7 所 示 。 


表 1-7 三 大 移动 智能 操作 系统 的 APP 相关 数据 


APP 商店 上 线 时 间 主要 数据 


App 数量 : 65 万 余 款 


iOS Apple App Store 2008 年 7 月 11 日 下 载 数量 : 300 亿 次 
设备 激活 总 量 : 3.65 亿 
App 数量 : 60 万 余 款 

Android Google Play Market 2008 年 10 月 22 日 | 下 载 数量 : 200 亿 次 


设备 激活 总 量 : 4 亿 


续 表 
主要 数据 
App 数量 : 10 万 余 款 
设备 激活 总 量 : 1050 万 


Widows Phone Marketplace |2010 年 10 月 26 日 


大 量 智能 移动 设备 接 入 网 络 ， 移 动 应 用 爆发 性 增长 使 得 对 数据 进行 深入 挖掘 的 需求 
突显 ， 而 移动 互联 网 与 传统 互联 网 融合 ， 并 成 为 所 有 媒体 的 核心 节点 却 是 大 数据 实现 的 
前 提 。 根 据 EnfoDesk 易 观 智库 产业 数据 库 最 新 发 布 的 《2012 一 2014 中 国 移动 互联 网 
市 场 预测 》 数 据 显 示 ， 目 前 中 国 移动 互联 网 市 场 规模 已 达到 1500 个 亿 ， 移 动 互联 网 用 
户 超过 5 亿 , 是 15 年 前 的 867 倍 ， 互 联网 普及 率 达 到 39.9%。ZDC 统计 数据 显示 ， 参 
与 调查 者 中 ， 使 用 手机 上 网 者 的 比例 高 达 97.4%， 仅 有 2.6% 的 调查 者 表示 不 使 用 手机 
上 网 。 

2. 数据 流量 剧 增 ， 导 致 网 络 行业 发 生 新 的 转变 

2013 年 12 月 24 日 ， 据 《纽约 时 报 》 网 站 报道 ， 过 去 一 年 美国 手机 产业 出 现 两 大 
趋势 ， 手机 网 络 速度 更 快 ， 智 能 手机 显示 屏 更 大 ， 其 结果 是 用 户 的 移动 数据 流量 增长 近 
1 倍 。2013 年 美国 消费 者 每 月 使 用 的 移动 数据 流量 由 2012 年 的 690MB 增长 至 1.2GB; 
从 全 球 范围 来 看 , 消费 者 每 月 使 用 的 移动 数据 流量 由 2012 年 的 140MB 增长 至 240MB。 

例如 ， 中 国 移动 数据 在 2013 年 春节 期 间 涨幅 也 十 分 明显 ， 上 涨 了 105%。 据 中 国 
移动 广东 方面 透露 ， 总 体 GPRS 数据 使 用 量 同比 增长 63.84%; WLAN 数据 量 同比 增长 
227.55%; 3G 数据 量 同比 增长 212.68%。 

对 于 如 此 庞大 的 数据 量 ， 又 有 哪些 是 具有 商业 价值 的 ? 怎样 挖掘 出 这 些 有 价值 的 数 
据 呢 ? 事实 上 在 大 数据 中 , 存储 在 数据 库 中 的 结构 化 数据 仅 占 10%, 邮件 、 视 频 、 微 博 、 
帖子 、 页 面 点 击 等 大 量 非 结构 化 数据 占据 了 另外 90%。 怎样 从 这 些 与 用 户 行为 相关 的 大 
数据 中 挖掘 出 更 多 有 价值 的 内 容 ， 值 得 创业 者 思考 和 探索 ， 同 时 也 给 数据 分 析 与 挖掘 产 
业 带 来 更 多 的 机 会 。 

基于 如 此 巨大 的 数据 流量 ， 网 站 分 析 ( Web Analytics ) 已 成 为 一 种 新 的 火爆 产业 。 
Web Analytics 是 一 种 网 站 访客 行为 的 研究 ， 对 于 商务 应 用 背景 来 说 ， 网 站 分 析 特 指 通 
过 来 自 某 网 站 资料 的 使 用 ， 以 决定 网 站 布局 是 否 符合 商业 目标 。 例 如 ， 哪 个 登录 页 面 
( landing page ) 比较 容易 刺激 顾客 购买 欲 。 这 些 搜集 来 的 资料 几乎 总 是 包括 网 站 流量 
报告 ， 也 可 能 包括 电子 邮件 回应 率 、 直 接 邮件 活动 资料 、 销 售 与 客户 资料 、 使 用 者 效能 
资料 或 者 其 他 自 订 需求 资讯 。 这 些 资料 通常 与 关键 绩效 指标 比较 ， 以 得 到 效能 资讯 ， 并 
且 还 可 用 来 改善 网 站 或 者 获取 营销 活动 中 观众 的 反应 情况 。 

3. 数据 方式 在 发 生 转 变 : 数据 存储 一 数据 应 用 

从 传统 互联 网 到 移动 互联 网 ， 人 们 产生 的 数据 越 来 越 多 。 同 时 Google Glass 的 诞 
生 让 我 们 有 理由 相信 ， 未 来 每 个 人 都 将 产生 更 多 的 数据 。 但 如 果 仅 仅 是 简单 地 将 这 些 数 
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据 存储 起 来 ， 它 本 身 并 不 具有 任何 价值 。 

据 统计 ， 目 前 大 数据 所 形成 的 市 场 规模 在 51 亿美 元 左右 ,而 到 2017 年 ， 此 数据 预 
计 会 上 涨 到 530 亿美 元 。 由 此 可 见 ， 数 据 背后 潜藏 着 巨大 的 商业 机 会 。 但 是 ， 如 果 大 数 
据 时 代 真 的 来 了 ， 营 销 人 员 是 否 真 的 能 够 利用 好 数据 分 析 ， 并 从 中 寻找 商业 价值 呢 ? 笔 
者 认为 ， 这 是 每 个 企业 都 应 该 思考 的 问题 。 

4. 互联 网 营销 方式 的 转变 向 个 性 化 时 代 过 渡 

正如 前 面 所 说 ， 数 据 结构 更 加 多 样 化 ， 图 像 、 视 频 和 文档 的 比例 占 了 半壁 江山 。 大 
量 的 用 户 行为 信息 记录 在 大 数据 中 ， 互 联网 营销 将 在 行为 分 析 的 基础 上 ， 向 个 性 化 时 代 
过 渡 。 

互联 网 上 ， 每 天 新 浪 微 博 用 户 发 博 量 超过 1 亿 条 ， 百 度 大 约 要 处 理 数 十 亿 次 搜索 请 
求 ， 淘 宝 网 站 的 交易 达 数 千 万 笔 ， 联 通 的 用 户 上 网 记录 一 天 达到 10TB…… 这 些 数据 运 
用 得 好 ， 可 以 使 大 众 化 营销 转向 个 性 化 营销 ， 从 流量 购买 转向 人 群 购买 。 

DCCI 提供 的 数据 显示 ， 中 国有 超过 230 万 个 网 站 ， 网 页 超 866 亿 ， 移 动 应 用 超过 
135 万 。 由 此 可 以 预见 , 国内 网 络 广告 投放 也 将 从 传统 面向 群体 的 营销 转向 个 性 化 营销 ， 
从 流量 购买 转向 人 群 购买 。 也 就 是 说 ， 未 来 的 市 场 将 更 多 地 以 人 为 中 心 ， 主 动 迎合 用 户 
需求 。 
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专家 提醒 
大 数据 技术 的 应 用 ， 可 以 帮助 企业 从 业务 的 整体 设计 角度 ,发 展 到 针对 客户 的 个 性 化 服 
务 ， 例 如 ， 零 售 企业 对 于 过 剩 的 库存 会 进行 整体 促销 ， 如 果 对 于 用 户 购买 数据 进行 分 析 ， 就 
可 以 针对 用 户 的 喜好 进行 个 性 化 促销 ， 同 时 也 根据 用 户 的 购买 行为 对 库存 进行 准确 的 调配 
以 减少 浪费 。 


1.2.5 大 数据 的 发 展 动力 
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大 数据 行业 的 发 展 ， 除 了 市 场 需求 的 驱动 和 技术 水 平 的 进步 ， 还 离 不 开 资 本 与 政策 
的 帮助 。 据 麦肯锡 报道 ， 大 数据 已 经 实现 了 显著 的 经 济 价值 : 为 美国 的 医疗 服务 业 每 年 
节省 3000 亿美 元 , 为 欧洲 的 公共 部 门 管理 每 年 节省 2500 亿 欧 元 , 为 全 球 个 人 位 置 数据 
服务 提供 商 贡 献 1000 亿美 元 ， 帮 助 美国 零售 业 净 利润 增长 60%， 帮 助 制造 业 在 产品 开 
发 、 组 装 等 环节 节省 50% 的 成 本 等 。 大 数据 体现 的 巨大 经 济 价值 ， 成 功 地 获得 了 金融 界 
和 政界 的 青睐 。 

例如 ， 在 英国 ， 虽 然 经 济 不 景气 、 财 政 紧缩 ， 但 政府 依然 为 大 数据 一 搓 千 金 。2013 
年 初 ， 英 国 商业 、 创 新 和 技能 部 宣布 将 注资 8 亿 英镑 发 展 8 类 高 新 技术 ， 其 中 1.89 亿 
英镑 ( 约 3 亿美 元 ) 用 于 大 数据 项 目 。 

从 目前 的 实时 数据 应 用 状况 来 看 ， 在 许多 私企 和 组 织 里 其 实 已 经 开始 了 大 数据 应 


DD 


用 ， 因 此 这 一 市 场 非常 需要 得 到 政府 的 支持 。 

诸如 在 线 购 物 等 网 站 已 经 开始 了 大 数据 的 应 用 与 实践 ， 例 如 亚马逊 购物 网 站 ， 系 统 
会 根据 用 户 最 近 的 选择 和 关注 过 的 商品 ， 来 进行 对 应 的 产品 或 服务 推荐 。 同 理 ， 政 府 也 
需要 根据 这 种 模式 来 研究 如 何 将 大 数据 技术 应 用 到 公共 数据 上 。 

大 数据 在 中 国 也 已 驶 入 “快车 道 "， 政 府 、 企 业 和 科研 院 所 正 多 方位 布局 。 工 信 部 
的 物 联网 “十 二 五 ”发 展 规划 ， 将 信息 处 理 技术 作为 四 项 关键 创新 技术 工程 之 一 ， 其 中 
包括 海量 数据 存储 、 数 据 挖 气 等 。 随 着 4G 牌照 在 2013 年 末 的 发 放 ， 更 高 速 的 网 络 将 
带 来 更 大 的 数据 流 ， 为 政府 和 企业 带 来 战略 性 资源 。 

例如 ， 国 内 的 政府 机 构 都 在 推行 “智慧 城市 ”这 一 蓝图 。 然 而 , “智慧 城市 ”的 信 
息 处 理 与 应 用 需要 具备 快速 从 海量 数据 中 获取 决策 信息 的 能 力 。 现 代 化 都 市 中 无 所 不 在 
的 移动 设备 、RFID、 无 线 传感器 以 及 互联 网 应 用 每 时 每 刻 都 在 产生 纷繁 复杂 的 巨 量 数据 。 

以 视频 监控 为 例 ， 一 个 大 型 城市 目前 用 于 视频 监控 的 摄像 头 约 50 万 个 ， 一 个 摄像 
头 一 个 小 时 的 数据 量 就 是 几 个 G, 每 天 视频 采集 数据 量 在 3PB 左右 。 智慧 城市 " 的 “ 智 
慧 ” 主 要 出 自 对 上 述 巨 量 信息 的 分 析 、 控 掘 和 处 理 。 大 数据 技术 的 应 用 恰好 有 效 满 足 了 
“智慧 城市 ”信息 处 理 需求 。 如 果 说 具有 感知 功能 的 传感器 是 智慧 城市 的 末梢 神经 ， 连 
接 传感器 的 城市 宽带 网 络 是 智慧 城市 的 神经 系统 ， 那 么 大 数据 应 用 就 是 智慧 城市 的 大 
脑 ， 是 城市 运行 的 智慧 引擎 。 

综 上 所 述 ， 我 们 可 以 看 到 ， 大 数据 成 为 今天 众人 瞩目 的 焦点 ， 是 市 场 、 技 术 、 资 金 
以 及 政府 多 方 因素 推动 的 结果 。 


1.2.6 展望 2014 的 大 数据 


大 数据 时 代 ， 媒 体 的 转型 发 展 ， 既 是 技术 问题 ， 也 是 战略 问题 ， 其 将 对 未 来 的 媒体 
形态 和 格局 产生 深远 影响 。 经 过 2012 年 整整 一 年 的 蓄 势 待 发 ， 在 2013 年 新 年 开始 时 ， 
“大 数据 ”的 概念 火 了 ， 有 媒体 将 2013 年 称 为 “大 数据 元 年 "。 

那么 ， 翻 过 2013， 走 进 2014， 大 数据 领域 又 会 向 着 什么 方向 发 展 呢 ? 如 表 1-8 所 
示 为 2014 年 度 大 数据 发 展 趋势 的 预测 。 


表 1-8 2014 年 度 大 数据 发 展 趋势 的 预测 


发 展 趋 势 具体 说 明 
数据 的 资源 化 是 指 大 数据 在 企业 、 社 会 和 国家 层面 成 为 重要 的 战略 资源 。 
数据 资源 化 2014 年 大 数据 将 成 为 新 的 战略 制高点 , 是 大 家 抢夺 的 新 焦点 ; 大 数据 将 不 断 
成 为 机 构 的 资产 ， 成 为 提升 机 构 和 公司 竞争 力 的 有 力 武 器 


大 数据 处 理 离 不 开 云 计算 技术 , 云 计算 为 大 数据 提供 弹性 可 扩展 的 基础 设施 
支撑 环境 以 及 数据 服务 的 高 效 模式 ， 大 数据 则 为 云 计算 提供 了 新 的 商业 价 
值 ， 因 此 从 2013 年 开始 大 数据 技术 与 云 计算 技术 必然 进入 更 完美 的 结合 期 
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发 展 趋势 具体 说 明 
Hadoop 将 成 为 企 |2014 年 ，Hadoop 的 适用 场景 将 超越 批 处 理 和 存储 ， 将 成 为 企业 数据 架构 
业 的 关键 组 件 中 通用 的 核心 组 件 ， 这 意味 着 数据 分 析 将 继续 成 为 大 数据 的 首要 用 例 
企业 将 更 加 钟情 企业 将 充分 利用 客户 与 在 线 产 品 或 在 线 服务 交互 产生 的 数据 ， 并 从 中 获取 
于 用 户 数据 价值 。 为 了 实现 这 一 点 ， 数 据 分 析 能 力 将 比 BI 团队 更 受 重视 ， 它 能 为 企 
业 提供 更 多 的 价值 
基于 海量 数据 ( 知 | 2014 年 将 会 有 更 多 基于 海量 数据 〈 知 识 ) 的 智能 成 果 出 现 ， 甚 至 有 可 能 产 
识 ) 的 智能 生 人 工大 脑 
在 大 数据 分 析 上 ，2014 年 将 出 现 革命 性 的 新 方法 。 就 像 计算 机 和 互联 网 一 
大 数据 分 析 的 革 | 样 ， 大 数据 可 能 是 新 一 波 的 技术 革命 。 基 于 大 数据 的 数据 挖掘 、 机 器 学 习 
命 性 方法 和 人 工 智 能 可 能 会 改变 小 数据 /小 世界 里 的 很 多 算法 和 基础 理论 , 这 方面 很 
可 能 会 产生 理论 级 别 的 突破 
大 数据 玩 转 市 场 | 大 数据 将 正式 登陆 市 场 营 销 ， 用 于 市 场 营销 的 大 数据 技术 将 在 这 一 年 扮演 
决策 重要 角色 一 一 影响 着 广告 、 产 品 推销 和 消费 者 行为 
数据 科学 兴起 2014 年 数据 科学 作为 一 个 与 大 数据 相关 的 新 兴学 科 出 现 , 将 有 专门 针对 数 
据 科 学 的 专业 形成 ， 有 博士 、 硕 士 甚 至 本 科 生 出 现 
数据 是 基础 , 之 前 在 科技 部 的 支持 下 , 已 建立 了 多 个 领域 的 数据 共享 平台 ， 
数据 共享 联盟 包括 气象 、 地 震 、 林 业 、 农 业 、 海 洋 、 人 口 与 健康 、 地 球 系统 科学 数据 共 
享 平台 等 。 之 后 ， 数 据 共享 将 扩展 到 企业 层面 
大 数据 将 在 2014 年 催生 一 批 新 的 就 业 岗 位 ， 如 数据 分 析 师 、 数 据 科学 家 
大 数据 新 职业 等 。 具 有 丰富 经 验 的 数据 分 析 人 才 成 为 稀缺 资源 ， 数 据 驱 动 型 工作 机 将 会 
呈现 出 爆炸 式 的 增长 
2 、 | 在 2014 年 里 ， 云 的 可 视 化 将 成 为 安全 性 的 关键 。 用 户 希 望 得 到 更 多 的 关 
云 的 可 视 化 和 控 | 一 一 二 pn 2 
制 访问 的 服务 与 于 云 如 何 运作 的 可 视 化 信息 一 一 无 论 是 基础 设施 还 是 PaaS。 现在 云 仍 处 于 
工具 在 增多 一 种 “黑匣子 ”的 状态 ， 用 户 不 知道 也 不 理解 发 生 了 什么 。2014 年 将 把 重 
点 放 在 使 去 可视化 以 及 设置 访问 控制 这 样 的 服务 或 工具 上 
一 个 新 的 分 析 堆 大 数据 分 析 公 司 Alteryx 预测 ，2014 年 将 出 现 一 个 新 的 数据 及 分 析 堆 栈 ， 
栈 将 诞生 为 数据 库 、 分 析 、 可 视 化 提供 新 的 解决 方案 ， 这 将 直接 威胁 到 传统 的 供应 
商 巨 头 ， 而 这 些 供应 商 也 会 在 匆忙 中 推出 新 的 解决 方案 
2014 年 , 大 数据 将 获得 更 多 的 关注 、 研 究 、 开 发 和 应 用 , 所 引起 的 结果 是 : 
更 大 的 数据 体现 大 数据 特征 的 体 量 大 、 速 度 快 、 模 态 多 、 价 值 密度 低 等 几 个 V 的 特性 
将 变 得 更 加 极致 
1.3 做 好 准 荔 ， 大 数 根 面 对 的 挑战 


大 数据 作为 一 


个 新 生 领 域 ， 尽 管 意味 着 大 机 遇 ， 拥 有 巨大 的 应 用 价值 ， 但 同时 也 遭 


遇 工程 技术 、 管 理 政策 、 资 金 投入 、 人 才 培 养 等 诸多 方面 的 大 挑战 。 只 有 解决 这 些 基础 
性 的 挑战 问题 ， 才能 充分 利用 这 个 大 机 遇 , 让 大 数据 为 企业 、 为 社会 充分 发 挥 最 大 价值 。 


1.3.1 大 数据 的 12 个 不 足 之 处 


大 数据 是 信息 通信 技术 发 展 积累 至 今 ， 按 照 自身 技术 发 展 逻辑 ， 从 提高 生产 效率 向 
更 高 级 智能 阶段 的 自然 生长 。 无 处 不 在 的 信息 感知 和 采集 终端 为 我 们 采集 了 海量 的 数 
据 ， 而 以 云 计 算 为 代表 的 计算 技术 的 不 断 进 步 ， 为 我 们 提供 了 强大 的 计算 能 力 ， 这 就 围 
绕 个 人 以 及 组 织 的 行为 构建 起 了 一 个 与 物质 世界 相 平行 的 数字 世界 。 

“大 数据 ”术语 广泛 地 出 现 也 使 得 人 们 渐渐 明白 了 它 的 重要 性 ， 并 渐渐 向 人 们 展现 
了 它 为 学 术 、 工 业 和 政府 带 来 的 巨大 机 遇 。 大 数据 时 代 下 的 信息 技术 日 渐 成 熟 ， 但 是 在 
高 科技 发 展 的 今天 ， 也 存在 着 诸多 不 足 ， 如 表 1-9 所 示 。 


表 1-9 大 数据 的 不 足 之 处 


不 足 之 处 具体 表现 
数据 量 的 “大 ”， 也 可 能 意味 着 代价 不 菲 ， 而 对 于 那些 正在 使 用 大 数据 环境 的 
企业 来 说 ， 成 本 控制 是 关键 的 问题 
带宽 能 力 _ | 运营 商 带宽 能 力 与 对 数据 洪流 的 适应 能 力 面临 前 所 未 有 的 挑战 
大 数据 处 理 和 分 析 的 能 力 远 远 不 及 理想 中 水 平 ， 数 据 量 的 快速 增长 ， 对 存储 技 
术 提 出 了 挑战 ， 同 时 ， 需 要 高 速 信息 传输 能 力 支 持 ， 与 低 密度 有 价值 数据 的 快 
速 分 析 、 处 理 能 力 。 硬件 的 发 展 最 终 还 是 由 软件 需求 推动 的 , 就 这 个 例子 来 说 ， 
我 们 很 明显 地 看 到 大 数据 分 析 应 用 需求 正在 影响 着 数据 存储 基础 设施 的 发 展 
海量 数据 存储 系统 也 一 定 要 有 相应 等 级 的 扩展 能 力 。 与 此 同时 ， 存 储 系统 的 扩 
展 一 定 要 简便 ， 可 以 通过 增加 模块 或 磁盘 柜 来 增加 容量 ， 甚 至 不 需要 停机 
部 分 早期 的 Hadoop 项 目 将 面临 挑战 。 有 些 行业 的 数据 涉及 上 百 个 参数 ， 其 复 
数据 平台 | 杂 性 不 仅 体现 在 数据 样本 本 身 ， 更 体现 在 多 源 异 构 、 多 实体 和 多 空间 之 间 的 交 
互动 态 性 ， 而 当前 技术 尚 难以 用 传统 的 方法 描述 与 度量 ， 处 理 的 复杂 度 很 大 
“大 数据 ”应 用 还 存在 实时 性 的 问题 ， 特 别 是 涉及 与 网 上 交易 或 者 金融 类 相关 
的 应 用 时 。 举 个 例子 来 说 ， 网 络 成 衣 销 售 行业 的 在 线 广告 推广 服务 需要 实时 地 
延迟 问题 | 对 客户 的 浏览 记录 进行 分 析 ， 并 准确 地 进行 广告 投放 。 这 就 要 求 存储 系统 在 必 
须 能 够 支持 上 述 特性 的 同时 保持 较 高 的 响应 速度 ， 因 为 响应 延迟 的 结果 是 系统 
会 推送 “过 期 ”的 广告 内 容 给 客户 
大 数据 环境 下 通过 对 用 户 数据 的 深度 分 析 ， 很 容易 了 解 用 户 行为 和 喜好 ， 乃 至 


成 本 问题 


存储 技术 


容量 问题 


个 

PAT 企业 用 户 的 商业 机 密 ， 对 个 人 隐私 问题 必须 引起 充分 重视 

商业 智能 大 数据 时 代 的 基本 特征 ， 决 定 其 在 技术 与 商业 模式 上 有 巨大 的 创新 空间 ， 如 何 
y 加 


创新 已 成 为 大 数据 时 代 的 一 个 首要 问题 
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具体 表现 
大 数据 时 代 对 政府 制订 规则 与 监管 部 门 发 挥 作用 提出 了 新 的 挑战 
目前 ， 大 数据 的 可 视 化 还 没有 达到 人 们 的 需求 
某 些 特殊 行业 的 应 用 ， 例 如 金融 数据 、 医 疗 信 息 以 及 政府 情报 等 都 有 自己 的 安 
全 标准 和 保密 性 需求 。 海 量 数据 洪流 中 ， 在 线 对 话 与 在 线 交易 活动 日 益 增加 ， 
其 安全 威胁 更 为 严峻 ;而 且 现 今 黑 客 的 组 织 能 力 、 作 案 工具 、 作 案 手法 及 隐蔽 
程度 更 上 一 层 楼 
大 数据 人 才 缺 乏 ， 大 数据 时 代 对 数据 分 析 师 的 要 求 极 高 ， 只 有 大 数据 专业 化 的 
人 才 ， 才 具备 开发 预言 分 析 应 用 程序 模型 的 技能 


不 足 之 处 
数据 管理 
人 工 智能 


安全 问题 


人 才 要 求 


除了 数据 的 收集 和 使 用 ， 在 大 数据 时 代 需 要 面 对 的 挑战 ， 还 有 数据 的 开放 。 如 果 说 
收集 数据 是 一 种 意识 , 使 用 数据 是 一 种 文化 、 一 种 习惯 , 那 是 否 开放 数据 则 是 一 种 态度 。 


1.3.2 大 数据 挑战 的 应 对 策略 


当今 ， 大 数据 的 到 来 ， 已 经 成 为 现实 生活 中 无 法 逃避 的 挑战 。 每 当 我 们 要 做 出 决策 
的 时 候 ， 大 数据 就 能 给 我 们 带 来 相当 大 的 帮助 。 但 与 此 同时 ， 大 数据 也 向 参与 的 各 方 提 
出 了 巨大 的 挑战 。 对 于 大 数据 时 代 在 现 如 今 面临 的 诸多 挑战 , 笔者 也 提出 几 点 应 对 策略 ， 
如 表 1-10 所 示 。 


表 1-10 大 数据 挑战 的 应 对 策略 
具体 方法 

大 数据 时 代 应 以 智慧 创新 理念 融合 大 数据 与 云 计算 , 在 大 数据 洪流 中 提升 知识 
价值 洞察 力 ， 实 施 高 效 实时 个 性 化 运作 ， 建 立 有 效 增值 的 商业 模式 。 另外， 还 
要 针对 大 数据 时 代 的 基本 特征 ， 加 强 全 方位 创新 
与 传统 的 商务 智能 应 用 相 比 , 大 数据 对 企业 数据 的 处 理 能 力 和 商务 智能 软件 提 
出 了 更 高 要 求 : 
> 企业 必须 具备 处 理 大 量 数 据 的 能 力 ， 因 为 有 的 企业 可 能 一 天 之 内 就 要 多 次 

处 理 PB 级 的 数据 ， 这 是 一 些 传统 的 存储 设备 所 不 能 胜任 的 。 
> 传统 的 数据 仓库 软件 是 针对 结构 化 数据 设计 的 ， 而 大 数据 包含 的 主要 是 非 

结构 化 的 数据 ， 因 此 传统 的 数据 仓库 软件 必须 改变 。 
因此 , 企业 可 以 邀请 一 些 协 同 处 理 算法 的 专家 对 其 用 户 数据 进行 分 析 ， 从 而 了 
解 租赁 客户 的 需求 
国内 的 IT 企业 和 地 方 政 府 已 经 意识 到 大 数据 产业 的 发 展 前 景 ， 对 发 展 大 数据 
应 用 有 着 较 大 热情 。 某 些 城市 已 经 启动 了 大 数据 发 展 战略 ， 计 划 到 2017 年 形 
成 至 少 500 亿 元 的 产业 规模 。 在 这 种 情况 下 ， 以 规划 和 专项 资金 等 方式 进行 鼓 
励 ， 有 可 能 扭曲 正常 的 市 场 行为 ， 甚 至 催生 泡沫 


应 对 策略 


合理 获取 数据 


存储 随 需 而 变 


不 必 急 于 出 台 
战略 性 规划 和 
设立 产业 专项 
资金 


应 对 策略 


续 表 
具体 方法 


筛选 与 分 析 大 
数据 


充分 利用 数据 “洞察 ”自己 身边 的 人 或 物 ,在 诸多 供给 方 当中 精准 地 匹配 自身 
需求 ， 从 而 最 大 限度 地 满足 自身 的 需求 ,这 样 才能 真正 充分 利用 大 数据 实现 自 
身价 值 的 最 大 化 


合理 改造 、 建 
设 和 布局 IT 
基础 设施 


培养 大 数据 时 
代 分 析 的 人 才 


理性 面 对 大 数 
据 的 价值 诱惑 
云 计算 和 大 数 
据 相 辅 相 成 


处 理 好 非 结 构 
化 数据 


提高 大 数据 的 
可 视 化 


安全 防范 必 不 


可 少 


对 现 有 的 传统 数据 中 心 及 大 量 的 旧 服务 器 资源 , 可 以 通过 建立 虚拟 数据 中 心 或 
进行 就 近 合并 等 方式 进行 改造 利用 , 探索 如 何 通过 虚拟 化 技术 和 云 计 算 平 台 管 
理 软件 来 提高 利用 效率 

大 数据 时 代 对 数据 分 析 要 求 很 高 ， 所 以 培养 大 数据 时 代 分 析 的 人 才 势 在 必 行 ， 
只 有 上 有 具备 大 数据 专业 方面 的 知识 ， 才 能 更 好 地 去 研究 大 数据 蕴含 的 特殊 技能 。 
人 才 培 养 应 从 高 等 教育 和 企业 技术 人 员 再 培训 两 个 方面 入 手 , 允许 大 学 设立 大 
数据 相关 专业 并 进行 招生 , 鼓励 地 方 政府 出 台 关于 大 数据 技术 人 才 培 训 的 相关 
政策 

面 对 社 会 各 界 的 “大 数据 ” 热 ， 应 理性 分 析 、 冷 静观 察 ,扎实 做 好 基础 性 工作 ， 
应 充分 认识 其 内 在 机 理 及 带 来 的 挑战 ， 进 一 步 理 清 对 策 思 路 

云 计算 提供 计算 机 资源 ， 如 存储 、 网 络 容量 等 ， 以 上 所 有 的 能 力 ， 使 得 大 数据 
与 云 计 算 相辅相成 ， 成 为 “最 亲密 的 朋友 ” 

大 数据 中 ,结构 化 数据 只 占 15% 左 右 , 其 余 的 85% 都 是 非 结构 化 的 数据 ,它们 
大 量 存 在 于 社交 网 络 、 互 联网 和 电子 商务 等 领域 。 由 于 非 结构 化 数据 量 猛 增 ， 
用 户 必然 面临 如 何 同时 处 理 好 结构 化 数据 和 非 结构 化 数据 的 问题 , 例如 什么 时 
候 将 数据 放 在 传统 的 数据 仓库 中 ， 什 么 时 候 要 用 开源 的 Hadoop 处 理 数据 

大 数据 的 可 视 化 就 是 将 大 数据 分 析 结 果 转 化 为 公司 能 够 使 用 的 信息 。 只 有 大 数 
据 分 析 结果 通过 可 视 化 处 理 后 ， 非 数据 分 析 专 业 人 士 才能 够 充分 理解 用 语言 、 
图 表 等 表述 出 来 的 大 数据 的 信息 

通过 立法 保护 个 人 隐私 数据 信息 应 是 必由之路 。 对 于 公民 个 人 而 言 , 在 享受 大 
数据 时 代 所 带 来 的 个 性 化 服务 的 同时 ,应 当 加 强风 险 防 范 意识 , 在 有 可 能 留 下 
隐私 数据 的 情形 下 要 充分 考虑 由 于 隐私 暴露 可 能 带 来 的 不 良 后 果 , 并 采取 相应 
的 防范 措施 


在 大 数据 时 代 ， 数 据 增长 速度 加 快 、 数 据 来 源 日 趋 复杂 、 数 据 容量 迅速 扩大 、 数 据 
类 型 也 变 得 丰富 多 样 、 用 户 对 于 数据 处 理 的 速度 要 求 越 来 越 高 。 面 对 全 新 的 数据 业务 挑 
战 ,企业 传统 的 IT 建设 模式 已 经 无 法 满足 数据 增长 的 需求 ,因此 , 新 一 代数 据 中 心 的 建 
设 成 为 未 来 用 户 业 务 发 展 的 根本 驱动 力 。 
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价值 : 大 数据 
商业 变 日 


学 前 提示 

“除了 上 帝 ， 其 他 任何 人 都 应 该 用 数据 说 话 。” 不 仅 是 人 ， 整 个 世界 都 越 来 越 数据 
化 。 信 息 革 命 深入 发 展 ， 如 潮 的 数据 澎 涯 而 至 ， 数 量 之 巨 ， 种 类 之 杂 ， 来 势 之 快 ， 前 所 
未 有 。 大 数据 是 推动 这 场 大 变革 的 重要 动力 , 其 将 成 为 促进 经 济 社会 转型 新 的 关键 资源 。 


要 点 展示 

< 深度 挖掘 ， 大 数据 的 商业 机 遇 
< 体现 价值 ， 大 数据 的 4 大 变革 
< ”价值 转型 ， 大 数据 下 的 商业 智能 
< ”大 数据 商业 变革 应 用 案例 


2.1 深度 榨 杨 ， 大 数据 的 商业 机 逮 


. 户 菇 症 


今 , 众多 企业 纷纷 进行 大 数据 挖掘 , 将 数据 管理 变 成 企业 未 来 IT 竞争 最 为 核心 的 
力量 , 而 新 一 代数 据 中 心 的 建设 自然 成 为 IT 建设 的 关键 。 例如 ， 可口可乐 公司 准备 在 上 
海 成 立 一 个 数据 中 心 , 该 数据 中 心 主要 用 于 处 理 中 国 市 场 的 数据 , 以 此 优化 企业 的 业务 ， 
并 提高 行业 的 竞争 力 。 

可 见 ， 在 行业 互联 网 化 的 新 IT 时代 ,在 大 数据 时 代 的 需求 下 ,数据 中 心 的 建设 已 经 
成 为 各 行业 IT 建设 最 为 关注 的 一 点 ， 大 家 都 期 待 借 此 挖掘 大 数据 的 商业 机 遇 。 


2.1.1 挖掘 大 数据 的 商业 价值 


通常 ， 企 业 里 面 到 处 都 充斥 着 数据 。 事 实 上 各 行 各 业 的 数据 量 均 经 历 了 几何 级 数 的 
增长 ， 无 论 是 医疗 卫生 还 是 金融 ， 抑 或 是 零售 业 还 是 制造 业 。 在 此 类 海量 数据 中 ， 隐 藏 
着 无 数 商业 秘密 ， 也 孕育 着 很 多 机 遇 以 及 潜在 的 成 功 。 

大 数据 意味 着 大 商机 ， 这 是 一 个 大 的 ， 可 以 说 是 重 中 之 重 的 事项 。 对 于 企业 来 说 ， 
无 论 是 已 经 开始 做 大 数据 了 ， 还 是 已 经 开始 希望 做 大 数据 的 项 目 ， 研 究 结果 表明 : 有 一 
个 企业 或 者 组 织 利用 大 数据 技术 ， 另 一 个 企业 却 没 有 利用 ， 未 来 它们 的 财务 状况 会 出 现 
明显 的 不 同 。 数 据 整合 带 来 的 价值 如 图 2-1 所 示 。 
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图 2-1 数据 整合 带 来 的 价值 


因此 ， 在 今天 这 样 一 个 数字 驱动 的 大 环境 下 ， 企 业 必 须 能 够 制定 周密 计划 并 且 实 施 
可 行 的 解决 方案 以 管理 大 数据 。 

当 Twitter 都 可 以 从 自己 的 数据 价值 中 获得 不 菲 的 利润 ,那么 任何 有 大 数据 的 平台 都 
蕴含 着 极 大 的 商业 价值 。 例 如 ， 腾 讯 QQ、 微 信 、 淘 宝 、 天 猫 、 新 浪 微 博 以 及 视频 用 户 


DB 


流量 等 都 是 如 此 。 只 是 企业 如 何 把 大 数据 中 的 商业 价值 挖掘 出 来 ， 并 且 得 以 合理 地 应 用 
却 是 一 个 难题 ， 这 也 是 大 数据 应 用 的 价值 所 在 。 可 以 说 ， 大 数据 的 核心 价值 理念 是 商业 
价值 ， 探 求 其 中 蕴含 的 商业 价值 对 于 任何 大 数据 的 应 用 、 分 析 、 整 合 都 是 非常 必要 的 。 

当然 ， 大 数据 应 用 和 分 析 最 终 的 目的 还 是 给 企业 带 来 更 好 的 收益 ， 技 术 积 累 后 的 优 
势 会 在 经 营 中 体现 出 来 ， 这 样 的 结果 才 是 我 们 需要 的 。 


2.1.2 大 数据 已 进入 4G 时 代 


如 果 说 3G 时 代 ， 中 国 追 赶 世界 ; 那么 ，4G 来 临 后 ， 中 国正 赶 超 世界 。2013 年 12 
月 4 日 ， 国 家 工信部 正式 向 中 国电 信 、 中 国 移动 和 中 国联 通 发 放 4G 牌照 ， 从 此 开启 了 
中 国 4G 网 络 的 商用 时 代 。 

很 多 用 户 不 明白 4G 的 概念 ， 下 面 笔者 通过 一 张 图 来 简单 说 明 一 下 各 种 类 型 网 络 的 
区 别 ， 如 图 2-2 所 示 。 


1G |2G 


3G 主要 提供 语 
音 和 相对 快速 的 
数据 服务 ， 典 型 
业务 是 语音 通 
话 、 数 据 流量 


图 2-2 各 种 类 型 网 络 的 区 别 


伴随 着 技术 的 演进 ， 网 速 得 到 大 幅 提 升 ， 各 种 新 应 用 、 新 服务 随 之 而 来 。 进 入 4G 
时 代 之 后 ， 移 动 互 联网 产业 有 了 更 大 的 想象 空间 ， 在 突破 了 “网 速 ”这 个 瓶颈 之 后 ， 新 
型 应 用 的 爆发 将 指日可待 。 

4G 将 使 大 数据 在 采集 、 传 输 和 应 用 端 发 生 重大 变化 。 信 息 过 载 的 压力 可 能 会 增加 ， 
很 多 数据 需要 经 过 处 理 才能 使 用 ， 这 也 催生 了 大 数据 产业 链 上 的 商机 。 据 了 解 ，4G 最 
大 的 数据 传输 速率 超过 100Mbps， 是 移动 电话 数据 传输 速率 的 1 万 倍 。 业 界 认 为 ，4G 
将 引发 一 场 大 数据 革命 。 如 图 2-3 所 示 为 4G 商用 对 整个 通信 产业 的 意义 。 

4G 时 代 ， 大 数据 的 采集 和 传输 速度 更 快 ， 大 数据 的 体 量 也 会 快速 膨胀 ， 且 会 推动 
大 数据 存储 、 计 算 和 分 析 技 术 的 革新 。4G 将 使 得 大 数据 在 采集 、 传 输 和 应 用 端 都 发 生 
非常 大 的 变化 ， 例 如 ， 信 息 过 载 的 压力 可 能 增 大 ， 很 多 数据 需要 经 过 处 理 才能 使 用 ， 这 
也 催生 了 大 数据 产业 链 上 的 商机 。 
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两 喜 冯 疝 曾 三 . 弹 距 才 


| 菇 依 后 双方 具 才 .本 三 各, 


@ 带动 终端 设备 的 采 
购 、 销售 , 也 将 有 利于 国 
内 终端 厂商 开拓 全 球 4G 


@ 4G 商用 后 ， 网 络 基 
础 设施 的 投资 与 建设 将 
加 快 ， 通 信 设 备 厂商 的 


竞争 格局 将 发 生变 革 。 @ 4G 业务 开展 后 , 电 


信 运 营 商业 绩 表 现 将 得 
到 提 振 ， 这 有 助 于 运营 
商 转型 创新 。 


@ 4G 网 络 的 建设 以 及 
4G 业务 的 开展 , 还 将 直 
接 促 进 手 机 用 户 对 流量 
和 数字 内 容 的 消费 。 


2-3 4G 商用 对 整个 通信 产业 的 意义 


移动 网 络 和 大 数据 是 全 局 零售 革命 最 大 的 特征 。 过 去 的 观点 是 ， 吸 引 到 店铺 来 的 才 
是 顾客 。 如 今 ， 店 铺 已 经 不 重要 了 。 由 于 移动 网 络 的 存在 ， 消 费 者 随时 可 以 通过 手机 或 
其 他 移动 终端 逛 商店 、 下 订单 或 付款 ， 完 成 购买 

例如 ， 在 2013 年 的 “ 双 十 一 ”当天 ， 支 付 宝 350 亿 元 的 成 交 额 刷新 了 2012 年 的 
纪录 。 其 中 ， 小 米 成 为 最 大 的 赢家 ， 以 5.53 亿 元 的 成 交 金 额 位 列 天 猫 单 店 排名 第 一 位 ， 
手机 销售 33.1 万 台 ， 盒 子 销售 5.6 万 台 ， 配 件 销售 3 553 万 元 。 

小 米 的 胜利 不 仅仅 是 其 自身 营销 、 价 格 上 的 胜利 ， 某 种 程度 上 来 说 ， 是 大 时 代 的 胜 
利 。 正 如 小 米 手机 掌 门 人 雷军 所 说 :“ 小 米 能 成 功 ， 首 先是 因为 移动 互联 网 这 个 大 方向 
选 对 了 。” 


专家 提醒 
笔者 认为 ， 在 当今 时 代 ， 物 联网 担当 了 数据 采集 的 角色 (触角 )， 云 存储 担当 了 数据 归 
集 和 存储 的 角色 (仓库 )， 大 数据 技术 负责 收集 来 的 大 数据 的 智能 挖 振 分 析 工 作 ( 大脑 )， 而 
互联 网 技术 (包括 4G、 光 纤 等 新 技术 ) 则 是 信息 传输 交换 的 通道 ， 是 信息 时 代 的 “高 i 
公路 ”。 


2.1.3 ”实现 商业 价值 的 新 捷径 


. . 施 噬 才 


如 今 ， 电 子 商 务 、 社 交 媒 体 、 移 动 互 联网 、 物 联网 的 兴起 极 大 地 改变 了 人 们 生活 与 
工作 的 方式 ， 它 们 给 世界 带 来 巨大 变化 的 同时 ， 也 让 一 个 大 数据 时 代 真 正 地 到 来 。 大 数 
据 相 对 于 传统 数据 的 优势 ， 主 要 体现 在 数据 量 庞大 、 数 据 类 型 丰富 、 数 据 来 源 广泛 3 个 
方面 , 大 数据 的 这 3 大 特征 不 仅仅 悄然 改变 着 企业 IT 基础 架构 , 也 促使 了 用 户 对 数据 与 
商业 价值 之 间 关 系 的 再 思考 。 

全 球 知名 咨询 机 构 麦 肯 锡 对 于 不 同行 业 所 产生 的 数据 类 型 进行 分 析 ， 认 为 几乎 所 有 
行业 正在 大 量 产生 非 结构 化 数据 ， 如 表 2-1 所 示 。 
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表 2-1 各 大 行业 的 非 结 构 化 数据 生产 频率 
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专业 服务 业 


流程 制作 业 
离散 制作 业 
证 券 投资 服务 | | 


保险 行业 


批发 行业 ed 


非 结构 化 数 
据 生产 频率 


大 数据 打破 了 企业 传统 数据 的 边界 ， 改 变 了 过 去 商业 智能 仅仅 依靠 企业 内 部 业务 数 
据 的 局 面 ， 其 背后 蕴含 的 商业 价值 不 可 低估 。 笔 者 认为 ， 在 大 数据 时 代 背 景 下 ， 企 业 必 
须 从 思维 的 角度 彻底 颠覆 过 去 的 观点 ， 大 数据 在 未 来 企业 中 的 角色 绝对 不 是 一 个 支撑 
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者 ， 而 是 在 企业 商业 决策 和 商业 价值 的 决策 中 扮演 着 重要 的 作用 。 


专家 提醒 


就 像 互联 网 通过 给 计算 机 添加 通信 功能 而 改变 了 世界 一 样 , 大 数据 也 将 改变 我 们 生活 中 
最 重要 的 方面 ， 因 为 它 为 我 们 的 生活 创造 了 前 所 未 有 的 可 量化 的 维度 。 大 数据 已 经 成 为 了 新 
发 明和 新 服务 的 源泉 ， 而 更 多 的 改变 正在 蓄 势 待 发 。 


2.1.4 挖掘 大 数据 的 商业 机 会 


随 着 技术 的 不 断 发 展 , 世界 已 进入 大 数据 时 代 , 而 数据 背后 潜藏 着 巨大 的 商业 机 会 。 


一 分 钟 内 , Flicker 上 会 有 3125 张 照片 上 传 , Facebook 上 新 发 布 70 万 条 信息 , YouTube 
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获得 数据 


汇集 数据 


存储 数据 


上 有 200 万 次 观赏 。 从 表 2-1 中 可 以 看 出 ， 图 片 、 声 音 、 文 字 以 及 这 背后 用 户 的 习惯 和 
轨迹 构成 了 互联 网 上 的 数据 资源 ， 大 数据 时 代 迎 面 袭 来 。 
笔者 认为 ， 企 业 要 想 挖掘 大 数据 的 商业 机 会 ， 一 方面 ， 不 能 将 大 数据 固守 在 自己 的 
领域 里 面 ， 要 和 企业 中 其 他 的 数据 管理 、 信 息 分 析 结 合 起 来 ， 另 一 方面 ， 在 大 数据 的 部 
署 过 程 中 会 采用 多 种 技术 ; 最 后 ， 大 数据 需要 共同 协作 和 分 享 来 降低 成 本 和 风险 。 
围绕 数据 的 整个 产业 链 上 ， 笔 者 认为 具有 以 下 机 会 ， 如 表 2-2 所 示 。 


表 2-2 大 数据 的 商业 机 会 


具体 方案 
通过 把 各 种 行为 和 状态 转变 为 数据 ， 简 称 数据 化 ， 这 是 第 一 个 机 会 ， 也 是 基 
础 。 大 量 个 人 信息 数据 的 获得 ， 这 个 机 会 基本 属于 新 浪 、 微 博 等 这 类 大 企业 
大 量 交易 数据 的 获得 ， 也 基本 属于 京东 、 淘 宝 这 类 互联 网 企业 ， 小 企业 基本 
没 机 会 独立 得 到 这 些 用 户 数据 
数据 的 汇集 是 一 个 相对 复杂 的 过 程 ， 但 如 果 能 把 各 大 厂商 、 微 博 、 政 府 部 门 
的 数据 汇集 全 ， 这 个 机 会 将 是 极 大 的 
汇集 了 数据 后 ， 立 即 遇 到 的 问题 就 是 存储 ， 这 个 代价 极 大 ， 原 始 数据 不 能 删 
除 ， 需 要 保留 。 因 此 ， 提 供 存 储 设备 的 企业 ， 执 行 存储 这 个 角色 的 企业 ， 都 
具有 巨大 的 市 场 机 会 ， 但 是 这 也 不 属于 小 企业 ， 或 者 早期 创业 者 


运算 数据 


存储 完 数据 后 ， 怎 么 把 数据 分 发 是 个 大 问题 ， 各 种 API (Application 
Programming Interface, 应 用 程序 编程 接口 )、 开 放 平 台 都 可 以 将 这 些 数 据 发 散 
出 去 ， 用 于 后 续 的 挖掘 和 分 析 工 作 ， 这 个 步骤 也 需要 有 大 量 资 本 投入 ， 因 此 
不 适合 小 企业 


挖掘 和 分 析 
数据 


在 转化 数据 的 基础 上 展开 应 用 ， 如 何 把 转化 数据 变 为 商业 机 会 。 需 要 做 增值 
服务 ， 否 则 数据 就 没有 价值 ， 因 此 数据 分 析 和 挖掘 工作 具有 巨大 的 价值 ， 这 
个 机 会 属于 小 企业 、 小 团体 


续 表 
商业 机 会 具体 方案 
电子 数据 和 转化 数据 的 结合 应 用 ， 在 这 个 含义 里 面 ， 传 统 电子 数据 变 为 了 一 
种 产品 ， 或 一 种 服务 。 在 对 数据 做 到 了 很 好 的 挖掘 和 分 析 后 ， 需 要 把 这 些 结 
果 应 用 在 一 个 具体 的 场合 上 ， 来 获得 回报 ， 做 数据 挖掘 和 分 析 的 企业 ， 必 须 
找到 这 些 客户 才 行 ， 而 这 些 客户 肯定 也 不 是 小 企业 


使 用 和 消费 
数据 


例如 ， 互 联网 从 业者 可 以 运用 大 数据 技术 获取 和 分 析 用 户 的 消费 习惯 、 兴 趣 爱好 、 
关系 网 络 以 及 整个 互联 网 的 趋势 、 潮 流 。 另 外 ， 不 但 社会 化 媒体 基础 上 的 大 数据 挖掘 和 
分 析 将 会 衍生 很 多 应 用 ， 而 且 基于 数据 分 析 的 营销 咨询 服务 也 正在 兴起 。 


专家 提醒 
不 久 的 将 来 ， 数 据 可 能 成 为 最 大 的 交易 商品 。 但 数据 量 大 并 不 能 算是 大 数据 ， 大 数据 的 
特征 是 数据 量 大 、 数 据 种 类 多 、 非 标准 化 数据 的 价值 最 大 化 。 因 此 ， 大 数据 的 价值 是 通过 数 
据 共 享 、 交 又 复 用 获取 的 。 因 此 ， 在 笔者 看 来 ， 未 来 大 数据 将 会 如 基础 设施 一 样 ， 有 数据 提 
供 方 、 管 理 者 、 监 管 者 ， 数 据 的 交 又 复 用 将 大 数据 变 成 一 大 产业 。 


2.1.5 用 大 数据 预测 宏观 经 济 


2013 年 5 月 ， 在 淘宝 网 的 十 周年 晚会 上 ， 阿 里 巴巴 集团 董事 局 主席 马云 卸任 了 阿 
里 集团 CEO 的 职位 ， 并 做 了 务 任 前 的 演讲 。 马 云 的 一 番 话 引起 了 大 家 的 深思 ， 他 说 道 : 
“大 家 还 没 搞 清 楚 PC 时 代 的 时 候 ， 移 动 互联 网 来 了 ， 还 没 搞 清 楚 移动 互联 网 的 时 候 ， 
大 数据 时 代 来 了 。 

从 2009 年 6 月 起 ， 和 讯 网 每 月 推出 “和 讯 预测 ”系列 宏观 经 济 数据 ， 分 别 邀 请 十 
大 经 济 学 家 和 十 大 券商 机 构 对 上 月 度 CPI、PPI 和 当 季 度 GDP 数据 进行 预测 ， 并 在 此 基 
础 上 建立 模型 ， 通 过 加 权 平 均 的 方式 得 出 “和 讯 预 测 ” 之 “经 济 学 家 宏观 经 济 数据 预测 ” 
和 “机 构 宏观 经 济 数据 预测 ”结果 ， 如 图 2-4 所 示 。 
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图 2-4 CPI 和 GDP 数据 走势 图 
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本 如 冯 疝 曾 伍 . . 员 距 才 


| 几 凡 后 了 二 类 洛 . 闸 人 5 全 


作为 中 国 财经 网 络 门户 ， 和 讯 网 同时 也 是 政府 批准 的 证 券 投资 咨询 机 构 ， 并 在 成 立 
以 来 的 10 多 年 里 专注 收集 资本 市 场 与 财经 领域 的 信息 和 数据 ， 因 此 拥有 独立 而 且 丰富 
的 数据 库 ， 并 且 拥 有 众多 学 界 、 机 构 资源 。" 和 讯 预 测 ” 的 推出 既是 对 这 些 丰 富 数 据 及 
资源 的 有 效 整合 ， 也 是 希望 将 这 些 信息 专业 加 工 后 可 以 更 好 地 服务 于 广大 网 友 ， 引 导 投 
资 者 理性 投资 。 

2011 年 6 月 ， 东方 财富 网 也 推出 了 “宏观 经 济 数据 预测 ”的 业务 , 汇总 十 大 券商 机 
构 对 上 月 度 CPlI、PPI、 信 贷 、 外 贸 、 工 业 、 投 资 、 消 费 和 当 季 度 GDP 数据 进行 预测 ， 
并 在 此 基础 上 建立 模型 ， 通 过 加 权 平 均 的 方式 得 出 “机 构 宏观 经 济 数据 预测 ”结果 ， 为 
网 友 投资 决策 提供 参考 ， 如 图 2-5 所 示 。 
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图 2-5 东方 财富 网 上 的 进口 增 速 走势 图 
2.1.6 ”企业 用 大 数据 获取 优势 


如 今 ， 数 据 分 析 模 式 正在 发 生 大 的 转变 ， 当 然 这 一 点 也 为 企业 带 来 了 真正 的 机 会 。 
大 数据 平台 让 所 有 企业 能 够 通过 这 种 模式 转变 所 提供 的 洞察 力 优势 ， 来 获得 显著 的 竞争 
优势 。 

例如 ，IBM 在 大 数据 应 用 和 开发 方面 可 以 说 是 处 于 业界 的 领先 地 位 。IBM 有 500 多 
个 编程 人 员 和 工程 师 ， 以 及 15000 次 的 IBM 客户 参与 ， 而 且 IBM Power Systems 全 线 
产品 均 可 运行 Linux。 作 为 IBM Power Systems 旗下 的 一 条 子 产 品 线 ，Power/Linux 可 
以 通过 更 少 的 处 理 器 数量 提供 更 好 的 系统 性 能 ， 满 足 大 数据 、 开 源 和 行业 解决 方案 工作 
负载 的 需求 ， 帮 助 企 业 尽 展 大 数据 分 析 洞察 智慧 。 

也 许 你 还 没有 看 到 大 数据 到 底 有 何 优势 ， 那 么 下 面 再 举 一 个 典型 的 案例 。 作 为 全 球 
知名 硬件 产品 、 解 决 方案 、 云 计算 服务 的 提供 商 一 一 中 科 上 曙光， 推出 了 曙光 行业 大 数据 


系统 ， 这 是 一 个 能 够 感知 和 度量 数据 的 、 全 面 互联 互通 的 系统 ， 其 能 够 快速 、 智 能 地 分 
析 海 量 数据 ， 以 提高 洞察 力 并 帮助 企业 做 出 明智 决策 ， 为 客户 提供 创新 的 产品 和 服务 ， 
如 图 2-6 所 示 。 
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图 2-6 ”曙光 行业 大 数据 系统 的 竞争 优势 
2.1.7 ”大 数据 有 待 更 深 的 挖掘 
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大 数据 并 不 是 新 的 概念 ， 在 移动 互联 网 发 展 起 来 后 ， 数 据 增长 速度 加 快 ， 整 个 产业 
压力 突出 ， 传 统 数 据 库 技术 已 无 法 满足 运营 商 对 大 数据 充分 利用 的 需求 ， 在 此 背景 下 ， 
大 数据 成 为 近年 来 的 热点 。 

大 数据 时 代 主 要 是 对 技术 的 综合 运用 和 对 数据 的 深度 挖掘 。 尤 其 是 对 于 运营 商 来 
说 , 大 数据 带 来 的 机 会 大 于 挑战 。 运营 商 有 自己 的 网 络 , 积累 了 大 量 非常 有 价值 的 数据 ， 
可 以 进行 客户 分 析 。 利 用 网 络 收集 数据 ， 对 运营 商 运 营 方式 的 改变 是 个 

例如 , 电信 运营 商 不 仅 可 以 利用 自身 在 运营 网 络 平台 的 优势 , 更 可 以 突破 传统 模式 ， 
发 展 大 数据 分 析 服务 、 移 动 营销 等 高 端 大 数据 业务 。 随 着 大 数据 的 技术 成 熟 和 应 用 的 推 
广 ， 运 营 商 将 可 以 围绕 数据 标准 化 、 精 准 营 销 、 优 化 用 户 服务 体验 、 提 高 业务 效率 等 4 
个 方面 来 强化 大 数据 的 应 用 , 提高 运营 商 在 企业 和 个 人 用 户 中 的 影响 力 , 如 图 2-7 所 示 。 

专家 提醒 

大 数据 的 应 用 可 以 帮助 人 们 不 再 追求 精妙 的 算法 , 而 是 以 过 去 所 有 的 数据 为 基础 来 准确 
推断 和 判断 未 来 可 能 发 生 的 事情 。 因 此 , 企业 如 果 能 够 通过 技术 的 进步 ,不 断 释放 大 数据 的 
潜在 力量 ， 其 将 会 成 为 未 来 数字 时 代 中 最 大 的 赢家 。 
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@ 提供 业务 效率 
一 数据 生命 周期 

一 新 一 代 开 架构 

上 @ 优化 服务 体验 一 优化 组 织 架构 和 


一 数据 分 析 服 务 。。 ”项目 流程 

一 主动 服务 体系 。 一 提升 数据 共享 能 
@ 精准 营销 大 
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图 2.7 电信 运营 商 可 以 更 深层 次 地 挖掘 大 数据 的 价值 
2.2 ”体现 价值 ， 大 数据 的 4 大 变 军 


大 数据 即将 开创 信息 社会 的 崭新 时 代 ， 它 能 够 改变 我 们 看 待 世界 的 方式 。 那 么 大 数 
据 意味 着 什么 ， 它 到 底 会 改变 什么 ? 笔者 认为 ， 仅 从 技术 和 商业 的 角度 回答 ， 已 不 足以 
解 惑 。 大 数据 只 是 宾语 ， 离 开 了 人 这 个 主语 ， 它 再 大 也 没有 意义 。 因 此 ， 我 们 需要 把 大 
数据 放 在 人 的 背景 中 加 以 透视 ， 理 解 它 作 为 时 代 变 革 力 量 的 所 以 然 。 


2.2.1 变革 医疗 卫生 


大 数据 的 影响 也 已 经 渗透 到 各 个 行业 的 应 用 当中 ， 最 具 代表 性 的 行业 有 互联 网 、 电 
商 、 人 金融 、 公 共 服 务 等 ， 当 然 其 中 也 包括 医疗 服务 。 
医疗 卫生 行业 作为 典型 的 传统 行业 , 其 IT 网 络 的 建设 具有 一 定 的 行业 复杂 性 与 特殊 
性 。 但 是 ， 随 着 医疗 改革 的 逐步 深入 ， 医 疗 服务 质量 的 提高 相 比 于 医疗 服务 效率 的 提升 
更 加 重要 。 那 么 ， 如 何在 众多 医疗 机 构 中 突出 自己 的 特色 ， 做 到 真正 的 急 患者 所 需 ， 更 
好 地 为 患者 服务 ， 才 是 医院 管理 层 真正 关注 的 关键 。 

在 过 去 的 .30 二 国 a 我 国 的 医疗 行业 经 历 了 医改 、 新 医改 ， 医 疗 信息 化 也 经 历 了 数 
字 化 、" 四 梁 八 柱 "、35212 工程 等 不 同 的 发 展 阶段 ， 信 息 技术 的 发 展 使 数字 化 医疗 日 趋 
成 熟 。 云 计算 、 大 数据 等 新 兴 技术 的 推动 又 给 医疗 信息 化 和 新 医改 带 来 了 新 的 契机 。 


专家 提醒 
四 梁 ” 是 指 4 大 医药 卫生 体系 : 全 面 加 强 公共 卫生 服务 体系 建设 ; 进一步 完善 医疗 服 
务 体系 ; 加 快 建设 医疗 保障 体系 ; 建立 健全 药品 供应 保障 体系 。“ 八 柱 ” 是 指 以 下 8 大 医疗 


D> 


卫生 改革 : 建立 协调 统一 的 医药 卫生 管理 体制 ; 建立 高 效 规范 的 医药 卫生 机 构 运行 机 制 ; 建 
立 政府 主导 的 多 元 卫生 投入 机 制 ; 建立 科学 合理 的 医药 价格 形成 机 制 ; 建立 严格 有 效 的 医药 
卫生 监管 体制 ; 建立 可 持续 发 展 的 医药 卫生 科技 创新 机 制 和 人 才 保 障 机 制 ; 建立 实用 共享 的 
医药 卫生 信息 系统 ; 建立 健全 医药 卫生 法 律 制度 。 

例如 ， 一 个 普通 的 三 甲 医院 每 天 就 要 接待 上 万 名 患者 ， 患 者 的 基本 信息 、 影 像 信息 
与 其 他 特殊 诊疗 信息 汇集 在 一 起 就 形成 了 一 个 庞大 的 数据 库 。 日 积 月 累 ， 这 个 数据 量 将 
会 以 几何 数字 倍增 ， 为 医院 的 数据 存储 、 集 成 、 调 用 等 应 用 都 带 来 了 巨大 压力 。 因 此 ， 
怎么 才能 精确 管理 与 快速 调用 这 些 数据 为 医生 和 管理 层 所 用 ， 成 为 了 目前 很 多 医院 CIO 
都 关注 的 热点 。 

大 数据 的 到 来 ， 使 很 多 医院 高 管 们 不 再 靠 差不多 、 经 验 和 直觉 习惯 做 决策 ， 逐 步 转 
变 思 维 方式 ， 通 过 对 海量 数据 的 挖掘 和 运用 ， 更 多 地 基于 事实 与 数据 分 析 做 出 决策 。 这 
对 信息 技术 人 员 来 说 是 机 遇 也 是 挑战 ， 而 这 些 影响 都 是 大 数据 带 来 的 。 


2.2.2” 带 来 商业 革命 


大 数据 不 仅 改变 了 医疗 卫生 领域 ， 整 个 商业 领域 都 因为 大 数据 而 重新 洗 牌 。 

在 此 ， 笔 者 首先 要 告诉 大 家 一 个 “启动 内 需 ” 的 原理 : 生产 者 是 具有 价值 的 人 ， 而 
消费 者 是 生产 者 价值 的 意义 所 在 。 有 意义 的 才 有 价值 ， 消 费 者 不 认同 的 ， 就 卖 不 出 去 ， 
就 实现 不 了 价值 ， 只 有 消费 者 认同 的 ， 才 卖 得 出 去 ， 才 实现 得 了 价值 。 然 而 ， 大 数据 可 
以 帮助 我 们 从 消费 者 这 个 源头 识别 意义 ， 从 而 帮助 生产 者 实现 价值 。 

例如 ， 华 声 财 讯 信息 技术 有 限 公 司 结合 云 计 算 、 大 数据 时 代 的 发 展 趋势 ， 推 出 了 基 
于 SMAS ( 社会 化 媒体 云 服 务 平台 ) 的 新 一 代 “ 企 业 与 情 监测 系统 "， 为 客户 量 身 打造 
全 媒体 时 代 的 防御 利器 ， 把 握 数据 挖掘 和 业务 情报 产业 的 先 机 ， 如 图 2-8 所 示 。 


园 EN 
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PP ER 
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图 2-8 华声 财 讯 的 大 数据 与 情 监测 业务 
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2.2.3 ”改变 人 们 思维 


中 国 科学 院 的 怀 进 鹏 院士 在 “第 五 届 中 国 云 计 算 大 会 ”发 表 了 题 为 “大 数据 与 大 数 
据 的 科学 与 技术 问题 ”的 主题 演讲 ， 他 在 演讲 中 表示 :“ 大 数据 的 发 展 可 能 会 改变 经 济 
和 社会 生活 ， 可 能 会 改变 科学 研究 的 途径 ， 甚 而 改变 人 类 的 思维 方式 。 

互联 网 重 塑 了 人 类 交流 的 方式 ， 而 大 数据 则 不 同 ， 它 标志 着 社会 处 理 信息 方式 的 变 
化 。 随 着 时 间 的 推移 ， 大 数据 可 能 真 的 会 改变 我 们 思考 世界 的 方式 。 随 着 我 们 利用 越 来 
越 多 的 数据 来 理解 事情 和 作出 决定 ， 我 们 很 可 能 会 发 现 生活 的 许多 层面 是 随机 的 ， 而 不 
是 确定 的 。 


专家 提醒 
大 数据 的 确 改变 了 我 们 的 思维 ， 更 多 的 商业 和 社会 决策 能 够 “以 数据 说 话 ”。 不 过 抛 开 
这 所 有 的 利好 ， 如 何 让 大 数据 不 侵入 我 们 的 隐私 世界 ， 也 是 与 之 伴生 并 需 严肃 考虑 的 问题 。 


2.2.4 开启 时 代 转 型 


大 数据 的 核心 就 是 预测 ， 相 关 关系 可 以 帮助 我 们 捕捉 现在 和 预测 未 来 ， 其 带 来 的 技 
术 变 革 将 开启 一 次 重大 时 代 转 型 。 
例如 ， 百 度 搜 索 指数 显示 ， 自 2013 年 6 月 至 9 月 , “考研 ”相关 搜索 词 累计 达到 了 
1.15 亿 , 日 均 接近 100 万 , 较 2012 年 同期 增长 10%, 如 图 2-9 所 示 。 依据 2012 年 176 
万 的 考研 报考 人 数 , 百度 大 指数 预测 , 2013 年 考研 的 报考 人 数 较 2012 年 相 比 还 会 增长 ， 
预计 能 突破 190 万 。 
115 379 049 


2012/06/01~2012/09/30 2013/06/01~2013/09/30 
2-9 2013 年 百度 考研 搜索 指数 较 2012 年 同期 增长 10% 


D> 


A 和 B 事件 如 果 经 常 在 一 起 发 生 , 那么 注意 到 B 发 生 ， 就 能 预测 A 也 发 生 。 这 种 关 
系 已 在 零售 业 和 电子 商务 中 被 广泛 运用 。 例 如 ， 某 家 便利 店 通过 分 析 零 售 终端 的 数据 ， 
得 出 了 “温度 低 于 15 摄氏 度 暖 宝 宝 的 销售 量 便 增加 5%” 的 相关 关系 。 于 是 ， 只 要 温度 
低 于 这 一 度数 ， 店 内 的 暖 宝 宝 就 会 上 架 。 


专家 提醒 
大 数据 时 代 最 大 的 转变 就 是 ， 放 弃 对 因果 关系 的 渴求 ,取而代之 关注 相关 关系 。 也 就 是 
说 只 要 知道 “是 什么 ”， 而 不 需要 知道 “为 什么 ”。 这 颠覆 了 千 百 年 来 人 类 的 思维 惯例 ， 对 人 
类 的 认 知 和 与 世界 交流 的 方式 提出 了 全 新 的 挑战 。 


2.3 ”价值 转型 ， 大 数据 下 的 商业 智能 


如 今 ， 也 许 你 并 不 了 解 大 数据 ， 但 大 数据 的 应 用 确实 已 经 遍地 开花 。 例 如 ， 人 金融 行 
业 通 过 大 数据 来 鉴别 个 人 的 信用 风险 ;快递 领域 通过 数据 来 确定 行驶 路 线 ， 减 少 等 候 时 
间 ， 政 府 通 过 大 数据 来 找 出 最 容易 发 生火 灾 和 井盖 爆炸 的 地 点 ;商场 通过 大 数据 发 现 产 
品 之 间 的 关联 。 在 大 数据 时 代 ， 一 切 都 存在 着 可 能 ， 智 能 商业 带 来 的 价值 转型 正在 悄然 
发 生 ， 而 我 们 也 正在 体验 这 一 切 改变 。 


2.3.1 大 数据 为 商业 智能 构建 基础 


DBA ( Database Administrator ， 数 据 库 管 理 员 ) 们 都 知道 数据 在 任何 商业 智能 
( Business Intelligence，BI ) 解决 方案 中 都 是 最 重要 的 部 分 。 

商业 智能 作为 一 个 工具 ， 是 用 来 处 理 企业 中 现 有 数据 ， 并 将 其 转换 成 知识 、 分 析 和 
结论 ， 帮 助 业务 或 者 决策 者 做 出 正确 且 明 智 的 决定 的 。 商 业 智 能 是 帮助 企业 更 好 地 利用 
数据 提高 决策 质量 的 技术 ， 其 包含 了 从 数据 仓库 到 分 析 型 系统 等 。 

大 数据 BI 是 能 够 处 理 和 分 析 大 数据 的 BI 软件 ， 区 别 于 传统 BI 软件 ， 大 数据 BI 可 
以 完成 对 TB 级 别 数 据 的 实时 分 析 。 例 如 ， 阿 里 巴巴 敏锐 地 捕捉 到 大 数据 的 巨大 潜能 。 
2012 年 ， 阿 里 巴巴 提出 大 数据 战略 ， 通 过 资源 共享 与 数据 互通 创造 商业 价值 。 在 2012 
年 的 “ 双 十 一 ”销售 热潮 中 ， 阿 里 巴巴 以 云 计算 为 基础 的 数据 服务 ， 对 数 以 亿 万 计 的 消 
费 者 需求 信息 进行 捕捉 ， 帮 助 网 商 随时 调整 销售 决策 。 

如 今 ， 新 一 代 信息 技术 已 经 彻底 地 改变 了 BlI 市 场 环境 ， 微 博 、 云 计算 、 物 联网 、 移 
动 互联 网 等 各 种 爆炸 式 数 据 ， 给 商业 智能 的 蓬勃 发 展 提供 了 良好 的 “大 数据 ”基础 。 

大 数据 为 BI 带 来 了 海量 数据 。 对 挖掘 来 说 ， 大 数据 量 更 容易 对 比 ， 它 加 速 了 BI 效 
率 和 整合 能 力 的 提升 。 因 此 ， 有 人 大 胆 预测 : 与 大 数据 相关 的 商务 智能 分 析 将 引领 管理 
信息 化 的 发 展 。 
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2.3.2 Oracle BIEE 商业 智能 系统 


Oracle BIEE 是 Oracle 商业 智能 平台 企业 版 , 由 收购 、 整 合 SIEBEL 和 HYPERION 
相关 BI 部 分 组 建 形成 ， 在 Oracle 整个 商业 智能 体系 架构 中 主要 承担 数据 分 析 应 用 和 可 
视 化 展示 工作 。Oracle BIEE 架构 如 图 2-10 所 示 ， 其 中 最 重要 、 最 核心 的 是 B| Server 


和 BI Server 所 操作 的 Repository。 
目录 资源 库 
Catalog Repository 


BI 二 
天 全 BI 服务 器 数据 源 
Oracle BI 
Oracle BI Server Data Sources 
Presentation Services 


图 2-10 Oracle BIEE 架构 


利用 Oracle BIEE 可 以 将 商业 智能 分 析 模型 清楚 简洁 地 展现 出 来 ， 开 发 人 员 在 定义 
好 元 数据 后 ， 业 务 人 员 即 使 了 解 内 部 库 表 和 相关 技术 ， 也 可 以 以 一 种 可 视 化 的 、 简 单 的 
方式 产生 出 自己 所 需要 的 智能 数据 报表 , 这 大 大 提高 了 经 营 分 析 的 效率 ,如 图 2-11 所 示 。 
时 ， 随 着 云 计 算 技 术 的 不 断 发 展 ， 给 商业 智能 行业 带 来 了 新 的 启示 。 基 于 云 计 算 的 商 
业 智 能 平台 可 以 作为 Web 服务 提供 给 用 户 ， 商 业 智能 的 Web 化 和 服务 化 ， 或 将 成 为 一 
个 新 的 趋势 。 


2-11 基于 Oracle BIEE 的 商业 智能 分 析 系 统 


2.3.3 ”商业 智能 成 就 行业 价值 机 会 


1989 年 ， 商 务 智能 界 “ 教 父 ” 一 一 Howard Dresner 提出 “商业 智能 ”的 概念 ， 不 
久 后 便 被 人 们 广泛 了 解 。 当 时 将 商业 智能 定义 为 一 类 由 数据 仓库 ( 或 数据 集 市 )、 查 询 
报表 、 数 据 分 析 、 数 据 挖掘 、 数 据 备 份 和 恢复 等 部 分 组 成 的 ， 以 帮助 企业 决策 为 目的 的 
技术 及 应 用 。 

在 大 数据 时 代 ， 企 业 如 果 想 要 抢夺 大 数据 市 场 ， 就 需要 具备 一 定 的 实力 ， 然 而 报表 
的 呈现 和 简易 分 析 只 是 停留 在 “B” 的 阶段 ， 要 想 达 到 “|” 的 阶段 ， 必 须要 结合 整个 大 
环境 、 大 行业 的 数据 来 判断 分 析 并 给 出 真正 有 价值 的 信息 和 决策 建议 ， 这 取决 于 你 能 拿 
到 多 广 多 深 的 数据 和 你 的 数据 挖掘 分 析 能 力 以 及 建 模 能 力 。 

商业 智能 与 大 数据 的 区 别 在 于 , 大 数据 能 够 基于 BI 工具 进行 大 容量 数据 处 理 和 非 结 
构 化 数据 处 理 ， 与 传统 基于 事务 的 数据 仓库 系统 相 比 较 ， 大 数据 分 析 不 仅 关注 结构 化 的 
历史 数据 ， 它 们 更 倾向 于 对 Web、 社 交 网 络 、RFID 传感器 等 非 结构 化 海量 数据 进行 分 
析 ， 大 数据 无 疑 是 对 Bl 的 一 个 完美 补充 。 

例如 ，2002 年 ， 民航 旅客 量 突破 一 个 亿 ， 这 一 个 亿 旅 客 带 来 了 海量 数据 的 增长 ,而 
且 数 据 类 型 也 是 丰富 多 样 ， 所 以 在 那个 时 候 ， 航 信 团 队 就 认为 数据 挖掘 是 非常 必要 的 工 
作 ， 利 用 数据 仓库 平台 做 了 早期 的 挖掘 。 之 后 经 过 调研 ，IT 团队 也 采用 了 专业 商业 软件 
去 部 署 ， 这 个 平台 也 给 客户 带 来 了 很 多 价值 。 

商业 智能 通常 被 一 些 大 企业 作为 强 有 力 的 掘 金石 ， 在 实现 信息 化 建设 后 ， 进 而 贯彻 
决策 的 解决 方案 ， 而 在 当前 中 小 企业 应 用 的 商业 智能 的 过 程 中 还 存 有 一 定 的 瓶颈 ， 中 小 
企业 的 实施 成 本 及 对 商业 智能 的 认识 及 发 展 力度 还 存在 一 定 差异 。 

据 Gartner ( 全 球 最 具 权 威 的 IT 研究 与 顾问 咨询 公司 ， 成 立 于 1979 年 ) 透露 ，Bl 
市 场 正 在 以 每 年 9% 的 速度 增长 ， 到 2014 年 市 场 价值 将 高 达 810 亿美 元 ，2020 年 将 增 
长 至 1360 亿美 元 。 


专家 提醒 
企业 信息 化 已 逐渐 由 传统 运营 层 管理 转向 决策 层 管理 ， 企 业 实施 BI 犹如 试 穿 鞋子 ， 企 
业 BI 应 用 的 核心 取决 于 企业 决策 与 业务 优化 , 企业 对 于 BI 的 深化 ， 需 要 具备 一 定 的 信息 化 
基础 ，BI 应 用 是 基于 业务 优化 、 运 营 管 理 与 决策 的 基础 上 的 。 


2.3.4 ”BI 导出 商业 潜能 和 社会 走 应 


如 今 ， 传 统 数据 仓库 的 性 能 已 无 法 应 付 庞大 的 信息 ， 但 是 大 数据 技术 使 我 们 能 够 访 
问 和 使 用 这 些 宝贵 的 、 大 规模 数据 集 , 以 应 对 越 来 越 复杂 的 数据 分 析 和 更 好 的 商业 决策 。 
例如 ， 当 你 在 听 音 乐 时 ， 豆 辩 电 台 会 推荐 你 可 能 喜欢 的 音乐 ， 当 你 在 当当 网 下 单 某 
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本 书 时 ， 它 会 提醒 购买 这 本 书 的 人 中 有 30% 也 购买 了 另外 一 本 书 ( 如 图 2-12 所 示 )， 这 
些 都 是 基于 大 数据 分 析 的 。 大 数据 带 来 的 另 一 改变 是 ， 更 多 事物 可 以 数据 化 。 购 物 习 惯 
可 以 数据 化 ， 社 交 关 系 可 以 数据 化 ， 社 会 热点 的 走向 也 可 以 数据 化 ( 通过 对 搜索 关键 词 
的 分 析 )。 这 些 数据 可 以 导出 商业 潜能 ， 更 能 导出 社会 走向 。 
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图 2-12 当当 网 的 购书 提醒 功能 


随 着 互联 网 技术 的 发 展 ， 未 来 的 大 数据 时 代 ， 将 是 各 种 信息 呈现 规模 化 快速 增长 的 
状态 。 如 何 更 快 获取 有 用 的 信息 是 关键 ， 智 能 分 析 工具 会 变 得 越 来 越 重 要 ， 其 可 以 凌驾 
于 多 个 管理 系统 、 数 据 库 之 上 。 如 何 通过 更 灵活 、 可 控 的 BI 工具, 真正 挖掘 出 大 数据 时 
代 的 价值 ， 是 大 数据 和 BI 面临 的 共同 挑战 。 


2.3.5 ”商业 智能 的 6 大 发 展 前 景 


总 体 上 来 看 ， 商 业 智能 的 发 展 有 以 下 几 个 特点 : 实时 、 操 作 型 、 与 业务 流程 的 集成 、 
主动 以 及 跨越 企业 边界 等 。 商 业 智能 的 实时 特性 ， 可 以 让 公司 与 顾客 拉 近 距离 ， 而 实时 
商业 智能 可 以 迅速 地 处 理 数 据 ， 并 给 出 及 时 、 有 效 的 决策 。 

如 今 , 商业 智能 的 概念 从 技术 到 应 用 都 发 生 了 巨大 的 变化 , 从 商业 智能 到 商业 分 析 ， 
再 到 企业 绩效 管理 ， 然 后 再 到 企业 绩效 优化 。 那 么 商业 智能 的 发 展 在 技术 上 和 应 用 上 的 
趋势 如 何 呢 ? 笔者 在 这 里 谈 谈 自己 的 观点 ， 如 表 2-3 所 示 。 


发 展 前 景 


表 2-3 商业 智能 的 发 展 前 景 
趋势 预测 


内 存 分 析 


可 视 化 发 现 


内 存 技术 已 经 成 为 了 万 众 瞩 目的 焦点 ， 它 能 够 为 不 断 增长 的 庞大 数据 提供 快 
速 分 析 。 未 来 ， 大 型 企业 会 逐渐 采用 如 HANA 及 Exalytics 之 类 的 高 端 应 用 ， 
然而 大 多 数 客户 会 继续 采用 QlikTech、Microsoft (Power Pivot) 及 Tableau 等 
供应 商 提供 的 灵活 的 内 存 解决 方案 ， 或 如 MicroStrategy 及 IBM Cognos 使 用 
方法 之 类 的 纯 软 件 解决 方案 

可 视 化 发 现 技术 会 成 为 商业 智能 的 重头 戏 。 可 视 化 发 现 不 同 于 内 存 技术 ， 尽 
管 在 有 些 行 业 将 两 者 混同 ， 而 且 不 少 可 视 化 发 现 工具 也 内 置 了 内 存 引擎 


大 数据 


移动 BI 


云 计算 BI 


协作 型 商务 
智能 


大 数据 会 导致 硬盘 读 取 数 据 非 常 慢 ， 所 以 大 数据 需要 一 个 快 到 秒 级 的 、 让 用 
户 感觉 无 颖 对 接 的 平台 ， 并 且 还 要 让 业务 人 员 尽 可 能 通过 简单 方式 来 使 用 这 
个 平台 。 大 数据 让 更 灵活 的 框架 和 拥有 灵活 数据 挖掘 算法 的 商业 智能 解决 方 
案 ， 拥 有 了 更 广阔 的 发 展 空间 

移动 BI 性 能 将 继续 提升 , 更 多 BI 供应 商 将 调整 应 用 ， 以 适应 移动 BI。 例 如 ， 
平板 电脑 能 够 支持 线 下 或 飞行 模式 ， 提 供 更 高 的 安全 性 以 及 更 好 的 性 能 

不 少 供应 商 将 云 计 算 视 作 减 少 内 存 消耗 的 最 佳 方法 ， 称 其 能 够 在 计算 高 峰 时 
期 提供 灵活 的 数据 解决 方案 

从 数据 出 发 ， 可 以 在 供应 商 、 企 业内 部 和 客户 之 间 共 享 分 析 的 结果 ， 通 过 结 
果 发 现 某 些 行动 可 能 产生 的 风险 ， 这 些 风险 会 给 供应 商 、 企 业内 部 、 客 户 带 
来 损失 


2.4 ”大 数据 商业 变 蛙 应 用 案 创 


人 们 懂 懂 地 意识 到 ， 数 据 即将 成 为 改变 未 来 社会 的 重要 力量 。 然 而 ， 大 数据 究竟 改 
变 了 什么 ， 在 人 们 脑 中 仍 是 个 模糊 的 影子 。 那 么 ， 通 过 本 节 的 应 用 案例 ， 笔 者 来 告诉 大 
家 大 数据 到 底 带 来 了 什么 样 的 商业 变革 。 


2.4.1 【案例 】 大 数据 助力 地 产 行 业 


中 国 建筑 第 五 工程 局 有 限 公司 ( 以 下 简称 中 建 五 局 )， 不 但 是 世界 500 强 企业 ， 也 


是 中 国 最 具 国 际 竞争 力 的 建筑 地 产 集团 一 一 中 国 建筑 工程 总 公司 的 成 员 企业 。 
由 于 中 建 五 局 现 有 的 ERP 系统 不 能 将 原始 数据 进行 加 工 ， 给 管理 者 提供 有 价值 的 


辅助 决策 信息 ， 
围 内 搭建 一 套 企 业经 营 决策 分 析 系 统 。2013 年 7 月 9 日 , “中 建 五 局 管理 信息 化 集成 系 


也 不 能 以 更 加 丰富 的 形式 展现 运营 状态 ， 因 此 ， 中 建 五 局 准备 在 全 局 范 
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| 典 凡 后 了 测 兴 才 .大 人 5 全 


统 ” 项 目 验收 会 在 长 沙 举 行 ， 经 过 验收 委员 会 专家 评审 ， 由 用 友 软 件 与 中 建 五 局 合作 开 
发 的 中 建 五 局 管理 信息 化 集成 应 用 系统 顺利 通过 验收 。 

用 友 软 件 通过 对 全 局 的 战略 、 经 营 、 财 务 、 项 目 运 营 以 及 风险 预警 等 分 析 体 系 的 建 
立 ， 为 中 建 五 局 提供 多 种 关键 指标 对 比 、 趋 势 分 析 ， 并 能 够 从 不 同 的 维度 对 数据 进行 统 
计 分 析 ， 挖 掘 数据 信息 ， 为 企业 提供 决策 支持 依据 ， 如 表 2-4 所 示 。 


基本 功能 


战略 分 析 


经 营 分 析 


多 种 关键 
指标 对 比 


竞争 力 分 析 


项 目 运 
营 分 析 


风险 预警 


表 2-4 中 建 五 局 管理 信息 化 集成 系统 的 基本 功能 


具体 内 容 
从 全 局 角度 出 发 ， 对 包括 房屋 建筑 、 基 础 设施 、 房 地 产 开发 等 多 个 业务 板块 ， 
从 战略 市 场 、 重 要 市 场 以 及 海外 市 场 进行 各 种 经 营 指标 的 同比 、 环 比 以 及 对 
比分 析 ， 以 及 同 其 他 兄弟 单位 的 对 比 体系 分 析 
从 下 属 单位 考核 机 制 来 着 手 ， 对 其 二 级 分 支 机 构 、 三 级 分 支 机 构 以 及 项 目 部 
三 个 层面 进行 包括 利润 、 费 用 、 成 本 、 收 益 等 多 个 方面 的 数据 分 析 ， 并 且 也 
丛 区域、 时间、 专业、 行业 等 多 种 维度 去 分 析 数 据 
根据 关键 指标 ， 主 要 从 纵向 、 横 向 的 角度 对 财务 数据 进行 分 析 。 纵 向 是 指 从 
历史 的 角度 进行 分 析 ， 横 向 是 指 从 行业 角度 分 析 和 集团 内 部 中 各 个 分 公司 的 
对 比分 析 
建立 在 企业 核心 资源 基础 上 ， 包 括 对 人 力 、 技 术 、 装 备 等 多 方面 因素 的 反映 ， 
重点 反映 的 是 HR 情况 
是 中 建 五 局 的 经 营 决策 分 析 系统 中 的 一 个 核心 模块 ， 主 要 体现 在 项 目 实施 阶 
段 中 对 项 目的 整体 把 握 ， 使 高 层 管理 人 员 能 够 对 项 目的 运营 情况 有 一 个 直观 
了 解 ， 并 且 以 此 为 依据 做 出 正确 的 决策 
对 关键 的 指标 进行 必要 的 预警 提示 。 风 险 预警 统一 采用 时 间 单 位 ， 随 着 时 间 
推进 ， 预 警 值 发 生变 化 ， 达 到 预 设 值 标 线 则 进行 预警 


【 案例 解析 ]， 在 本 案例 中 ， 中 建 五 局 管理 信息 化 集成 系统 涵盖 了 大 型 建筑 企业 集 
团 的 主要 管理 内 容 ， 建 立 了 从 上 到 下 的 主 数据 标准 化 体系 和 基于 ESB ( Enterprise 
Service Bus, 企业 服务 总 线 ) 的 便于 扩展 数据 的 交换 体系 ， 将 不 同 运行 系统 的 服务 通过 
定义 好 的 接口 联系 在 一 起 ， 实 现 不 同业 务 以 一 种 统一 和 通用 的 方式 进行 自由 交互 。 


2.4.2 【案例 】 大 数据 预测 机 票 价格 


美国 工程 师 奥 伦 . 埃 齐 奥 尼 ( Oren Etzioni ) 搭 飞机 时 ， 发 现 旁 边 的 旅客 买 票 比 他 
便宜 。 于 是 埃 齐 奥 尼 开 发 了 一 个 Farecast 工具 ， 用 于 预测 机 票 价格 的 波动 。 

通过 预测 机 票 价格 的 走势 以 及 增 降幅 度 ，Farecast 票 价 预测 工具 能 帮助 消费 者 抓 住 
最 佳 购买 时 机 。 由 于 Farecast 的 运转 需要 海量 数据 的 支持 , 埃 齐 奥 尼 找 到 了 一 个 行业 机 


票 预订 数据 库 。 依 靠 这 个 数据 库 进 行 预测 时 ， 预 测 的 结果 是 基于 美国 商业 航空 产业 中 ， 
每 一 条 航线 上 每 一 架 飞 机 内 的 每 一 个 座位 一 年 内 的 综合 票 价 记 录 而 得 出 的 。 如 今 ， 
Farecast 已 经 拥有 约 2000 亿 条 飞行 数据 记录 。 

截至 2012 年 ， 他 的 Farecast 系统 已 经 可 以 用 网 上 的 10 万 亿 条 价格 记录 去 推测 机 
票 何 时 价格 为 何 ， 预 测 准 确 度 达 75%， 帮 助 旅客 平均 每 张 机 票 节省 50 美元 。 

Farecast 是 大 数据 公司 的 一 个 缩影 ， 也 代表 了 当今 世界 发 展 的 趋势 。 五 年 或 者 十 年 
之 前 ， 奥 伦 . 埃 齐 奥 尼 是 无 法 成 立 这 样 的 公司 的 。 他 说 :“ 这 是 不 可 能 的 。” 那 时 候 他 所 
需要 的 计算 机 处 理 能 力 和 存储 能 力 太 昂贵 了 ! 虽说 技术 上 的 突破 是 这 一 切 得 以 发 生 的 主 
要 原因 , 但 也 有 一 些 细微 而 重要 的 改变 正在 发 生 , 特别 是 人 们 关于 如 何 使 用 数据 的 理念 。 

【 案例 解析 ]， 如 今 ， 人 们 已 不 再 认为 数据 是 静止 和 陈旧 的 。 但 是 在 以 前 ， 一 旦 完 
成 了 收集 数据 的 目的 之 后 , 数据 就 会 被 认为 已 经 没有 用 处 了 。 比方 说 , 在 飞机 起 飞 之 后 ， 
票 价 数据 就 没有 用 了 。 

现代 商业 环境 变幻 莫 测 ， 因 此 ， 对 于 企业 来 说 ， 在 大 数据 时 代 做 好 准备 ， 利 用 好 大 
数据 尤为 重要 。 


2.4.3 【案例 】 用 大 数据 增强 竞争 力 


2002 年 ， 北 京 移动 开始 构建 IDC ( Internet Data Center， 即 互联 网 数据 中 心 )。 经 
过 此 后 8 年 的 努力 , 一 共 建设 了 8 个 重要 IDC 核心 节点 , 机房 建设 面积 一 共 是 4 万 平方 
米 ， 有 上 百 G 的 带宽 连 到 骨干 网 上 。 
北京 移动 拥有 比较 丰富 的 IDC 运营 经 验 和 实力 ,是 国内 首 家 通过 1SO 27001 认证 的 
数据 中 心 , 早 在 2003 年 的 时 候 已 经 通过 BS79 认证 , 在 2004 年 年 底 的 时 候 申请 到 ISO 
27001 这 样 的 认证 标准 。 北 京 移动 IDC 也 是 中 国 移动 最 主要 的 内 容 枢纽 中 心 之 一 ， 担 负 
着 疏通 全 网 内 容 的 重要 战略 使 命 ， 现 在 整个 中 国 移动 6 个 亿 的 Web 访问 前 十 名 站 点 都 
在 北京 移动 数据 中 心 之 内 。 
在 大 数据 领域 , 北京 移动 的 标杆 企业 是 云 基 地 。 在 BI 系统 的 支持 下 ,北京 移动 逐步 
强化 “用 数据 说 话 ”的 工作 理念 ， 巩 固 了 业务 运营 的 数据 支撑 优势 ， 增 强 了 企业 的 核心 
竞争 力 。BI 系统 就 是 北京 移动 打造 的 另 一 只 金 翅 膀 ， 助 力 企业 展翅 高 飞 。 
北京 移动 BI 系统 的 成 功 在 于 以 下 两 个 方面 : 
> ”帮助 业务 部 门 建立 了 数据 分 析 和 精细 化 应 用 的 框架 体系 ， 从 企业 全 局 来 支撑 日 常 
的 数据 分 析 需 求 。 

> ”以 高 端 客户 服务 为 起 点 ， 建 立 一 系列 BI 专题 来 促进 高 端 客户 服务 更 加 精细 化 、 个 
性 化 、 人 性 化 ， 推 动 了 高 端 客户 服务 模式 变革 ， 逐 步 建 立 起 以 “客户 为 中 心 ” 的 
跨 部 门 协作 的 服务 体系 。 
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总 之 ，BI 系统 的 应 用 提升 了 企业 的 运营 效率 ， 保 障 了 业务 高 效 地 开展 ， 如 图 2-13 


所 示 。 
BI 系统 (经 营 分 析 系 统 ) 


系统 建设 需求 分 析 自 动 化 


通过 海量 数据 仓库 ， 打 通 各 业务 系 
统 信息 孤岛 ， 将 企业 的 数据 信息 实 
现 整合 。BI 系统 对 业务 决策 的 支持 
实现 了 持续 优化 、 不 断 提升 。 


全 面 地 进入 到 信息 时 代 ， 日 常 营销 
活动 从 依据 原来 无 序 的 数据 改变 为 
基于 对 数据 的 准确 、 系 统 的 分 析 ， 
大 大 提升 了 工作 效率 。 


专题 建设 : 创新 高 端 客户 服务 模式 


通过 对 现状 的 深入 分 析 , 利用 BI 仓 
库 数据 的 强大 优势 ， 通 过 建立 多 个 
挖掘 专题 ， 从 点 、 线 、 面 全 方位 来 
创新 服务 模式 。 


推进 了 大 客户 服务 工作 流程 的 改 
造 , 相继 改进 了 客户 关怀 挽留 流程 、 
价值 回 挖 和 提升 流程 、 满 意 度 改善 
流程 等 。 


图 2-13 ”BI 系统 的 应 用 


【 案例 解析 】] 移动 互联 和 大 数据 时 代 的 到 来 ， 极 大 地 改变 了 企业 传统 的 经 营 模式 、 
经 营 环境 和 经 营 方 式 ， 如 何 抓 住 新 的 机 遇 、 应 对 新 的 挑战 成 为 企业 必须 面 对 的 问题 。 在 
本 案例 中 ， 北 京 移动 在 移动 互联 和 大 数据 商业 环境 下 ， 利 用 商业 智能 的 优势 ， 来 扩大 市 
场 、 降 低 成 本 、 提 升 效率 、 应 对 危机 、 获 得 机 遇 ， 并 实现 跨越 式 发 展 。 


2.4.4 【案例 】 大 数据 助力 企业 管理 


上 海 帝 高 绒毛 服饰 有 限 公司 ( 简称 帝 高 羊绒 ) 创立 于 1989 年 1 月 ， 其 凭借 精湛 的 
工艺 技术 和 先进 的 管理 经 验 ， 经 过 几 年 的 发 展 造就 了 享 负 盛名 的 “ 百 纯 帝 高 ”羊绒 衫 。 
2003 年 10 月 ， 帝 高 羊绒 开始 使 用 博 科 商业 智能 一 一 财务 智能 仓 系统 ( BI-FIW )， 希 望 
通过 商业 智能 来 建立 起 企业 历史 管理 数据 之 间 的 相互 关系 ， 满 足 企业 快速 决策 的 管理 需 
要 ， 如 图 2-14 所 示 。 通 过 3 年 的 逐步 建设 ， 帝 高 羊绒 信息 化 数据 已 经 涉及 采购 、 销 售 、 
库存 、 往 来 、 总 账 等 业务 内 容 。 在 此 过 程 中 ， 博 科 资 讯 的 实施 人 员 对 帝 高 羊绒 的 数据 仓 
库 进 行 了 进一步 升级 ， 以 满足 商业 智能 系统 的 运行 需要 。 


E 了 解 方向 性 分 析 处 理 需求 ， 确 定 信息 需求 ， 确 定数 据 覆盖 范围 。 


深入 了 解数 据 源 和 分 析 数 据 仓库 系统 所 包含 的 主题 域 及 其 相互 
之 间 的 关系 。 


数据 仓库 建 模 ， 开 发 数据 抽取 和 加 载 模块 、 数 据 访问 模块 以 及 


开发 实际 应 用 。 
@ 测 试 对 软件 系统 和 数据 进行 测试 ， 保 证 系统 可 靠 性 。 
@ 运 行 在 数据 仓库 系统 的 运行 过 程 中 ， 不 断 收集 用 户 新 的 需求 。 


图 2-14 财务 智能 仓 系统 (BI-FlW) 的 工作 流 : 


【 案例 解析 】]: 在 本 案例 中 ， 创 建 帝 高 羊绒 的 数据 仓库 是 一 个 庞大 的 系统 工程 ， 需 
要 企业 不 断 地 去 建立 、 发 展 和 完善 。 

因此 ， 企 业 可 以 首先 提出 一 个 全 面 、 清 晰 的 远景 规划 及 技术 实施 蓝图 ， 将 整个 项 目 
的 实施 分 成 若干 个 阶段 ， 并 以 “立体 建 模 、 分 部 解析 、 过 程 评估 ”为 原则 。 做 到 这 些 ， 
企业 不 仅 可 迅速 地 从 当前 投资 中 获得 收益 ， 而 且 可 以 在 已 有 的 基础 上 ， 结 合 其 他 已 有 的 
业务 系统 ， 逐 步 构建 起 完整 、 强 大 的 数据 仓库 系统 。 


2.4.5 【案例 】 沃 木 人 工 智能 计算 机 


日 前 ，IBM 公司 研发 的 电脑 “ 沃 森 ”战胜 了 美国 电视 智力 节目 《危险 边缘 》 的 两 名 
人 类 选手 ， 一 时 间 ， 很 多 人 担心 ， 电 脑 越 来 越 像 人 了 ， 将 会 超越 人 类 智慧 。 

沃 森 智 能 计算 机 是 一 台 以 IBM 创始 人 托马斯 沃 森 名 字 命 名 的 电脑 ， 如 图 2-15 所 
示 。 在 硬件 方面 ，IBM Power 7 系列 处 理 器 是 当前 RISC 架构 中 最 强 的 处 理 器 一 一 采用 
45nm 工艺 打造 的 Power 7 处 理 器 拥有 8 个 核心 32 个 线程 ， 主 频 最 高 可 达 4.1GHz， 二 
级 缓存 更 是 达到 了 32MB。 在 软件 方面 ，IBM 研发 团队 为 “ 沃 森 ”开发 的 100 多 套 算法 
可 以 在 3 秒 内 解析 问题 ， 检 索 数 百 万 条 信息 然后 再 筛选 还 原 成 “答案 ”并 以 人 类 语言 
输出 。 

近日 ，IBM 又 宣布 将 把 “ 沃 森 ” 应 用 于 云 环 境 的 开发 平台 ， 开 放 API ( Application 
Programming Interface， 应 用 程序 编程 接口 )， 让 企业 能 够 开发 自家 的 “ 沃 森 ”App， 从 
而 构建 起 “ 沃 森 ” 生 态 圈 ， 将 “ 沃 森 ” 应 用 到 更 广泛 的 领域 。 
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图 2-15 沃 森 智 能 计算 机 


此 外 ，IBM 还 建立 了 一 个 “ 沃 森 ” 内 容 库 ， 供 应 商 可 以 为 沃 森 提 供 内 容 ， 包 括 通 用 
和 专用 的 信息 ， 如 医疗 保健 等 。" 沃 森 ” 的 优势 是 给 出 准确 与 可 靠 的 答案 ， 因 此 可 以 为 
医生 提供 更 适合 病人 的 解决 方案 。 在 医疗 领域 的 应 用 将 是 “ 沃 森 ” 商 用 最 主要 的 领域 。 

专家 得 醒 

笔者 认为 ,“ 沃 森 ” 项 目 如 果 想 在 医疗 行业 推行 的 话 ， 还 需要 面临 法 律 层面 的 问题 。 如 
果 “ 沃 森 ” 诊 断 出 错 ， 而 医生 又 听从 了 错误 的 诊断 ， 那 么 “ 沃 森 ”就 会 面临 被 患者 告 上 法 庭 
的 危险 ， 这 对 IBM 而 言 是 一 个 正在 考虑 的 应 用 问题 。 

【 案例 解析 ]， 目前， 各 行 各 业 的 数据 资料 都 是 以 自然 语言 编写 的 ， 例 如 医疗 行业 
的 医疗 记录 、 文 本 、 杂 志和 研究 资料 ， 这 些 都 是 计算 机 难以 理解 的 语言 。 另外， 在 零售 、 
旅游 、 金 融 、 电 信 、 服 务 等 行业 ， 同 样 存在 着 大 量 以 自然 语言 存储 和 编写 的 资料 ， 如 果 
存在 一 套 能 够 在 这 些 自然 语言 资料 中 快速 找 出 准确 答案 的 系统 ， 将 为 行业 带 来 巨大 的 改 
变 。 然 而 ， 本 案例 中 的 “ 沃 森 ” 具 有 理解 自然 语言 、 找 到 证 据 、 判 断 这 三 大 能 力 ， 这 种 
“ 认 知 计算 ”能 力 让 “ 沃 森 ” 在 当前 的 大 数据 浪潮 中 大 有 用 武之 地 。 

“ 沃 森 ”的 工作 过 程 实际 上 是 一 个 完整 的 大 数据 分 析 过 程 : 识别 理解 自然 语言 是 处 
理 非 结构 化 数据 的 过 程 ， 找 到 证 据 就 是 从 不 同 来 源 的 大 数据 中 检索 的 过 程 ， 判 断 就 是 给 
证 据 评 分 ， 作 出 最 佳 决策 的 过 程 。 因 此 可 以 预见 ,“ 沃 森 ” 在 大 数据 领域 会 有 非常 光明 
的 前 景 。 目 前 看 来 ， 沃 森 至 少 能 在 以 下 行业 领域 有 所 应 用 : 电子 、 能 源 与 电力 、 政 府 、 
卫生 保健 、 保 险 、 石 油 和 天然气、 零售、 通信、 交通、 银行 与 金融 市 场 等 。 


架构 ， 大 数据 
晕 础 设施 


学 前 提示 
大 数据 都 会 有 自己 的 基础 架构 平台 ， 一 般 推荐 是 基于 云 计 算 的 动态 弹性 平台 ， 因 为 


它 将 为 大 数据 的 分 析 处 理 提供 强 有 力 的 支撑 。 但 是 ， 企 业 要 想 让 如 此 规模 的 数据 真正 转 
化 为 财富 ， 数 据 中 心 必然 将 面临 一 次 漫长 而 充满 艰辛 的 基础 设施 及 架构 变革 。 


要 点 展示 
《< 探索 全 球 ，10 大 大 数据 部 署 方案 


< ” 掘 金 红海 ，10 大 大 数据 分 析 平台 
< ”大 数据 基础 设施 应 用 案例 


本 如 冯 疝 曾 全 . 漳 距 才 
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3.1 ”探索 全 球 ，10 大 大 数据 部 署 方案 


就 在 近 两 年 ， 大 数据 应 用 突然 爆炸 ， 五 彩 缤纷 的 创意 都 变 成 现实 。 即 使 最 谨慎 的 观 
察 家 也 承认 ， 大 数据 的 商业 应 用 时 代 已 经 来 临 ， 这 都 源 于 它 前 所 未 有 的 “从 海量 到 精准 ” 
的 预测 能 力 。 因 此 ， 大 数据 被 认为 是 下 一 个 创新 、 竞 争 和 生产 力 的 前 沿 ， 谁 率先 抓 住 大 
数据 的 先 机 即 意味 着 能 够 在 未 来 市 场 竞争 中 取得 标杆 地 位 。 

俗话 说 :“ 工 欲 善 其 事 ， 必 先 利 其 器 。 在 大 数据 实践 之 中 ， 基 础 架构 就 犹如 基石 一 
般 ， 是 构建 一 切 的 基础 ， 基 础 架构 基石 不 稳 ， 大 数据 “大 厦 将 倾 "， 具 有 优秀 的 基础 架 
构 才能 够 让 用 户 在 未 来 的 大 数据 之 路 中 越 走 越 宽 。 本 节 笔 者 就 带 大 家 一 同 回顾 在 世界 各 
地 那些 不 为 人 知 却 实际 存在 的 大 数据 基础 设施 部 署 方案 。 


3.1.1 Netflix: 掌握 视频 大 数据 炼金 术 


Netflix 是 一 家 在 线 影片 租赁 提供 商 , 能 够 提供 超大 数量 的 DVD, 而 且 让 顾客 可 以 快 
速 方 便 地 挑选 影片 ， 同 时 免费 递送 。 

Netflix 已 经 成 为 美国 国内 规模 最 大 的 商业 视频 流 供应 商 一 一 目前 拥有 2900 万 视频 
流 客 户 。 这 家 公司 同时 也 成 为 吸收 新 增 数据 的 “海绵 ”一 一 用 户 在 看 什么 、 喜 欢 在 什么 
时 段 观 看 、 在 哪里 观看 以 及 使 用 哪些 设备 观看 ， 爆 增 的 信息 量 成 为 Netflix 手中 的 宝贵 资 
产 。 他 们 甚至 掌握 着 用 户 在 哪个 视频 的 哪个 时 间 点 后 退 、 快 进 或 者 暂停 ， 乃 至 看 到 哪里 
直接 将 视频 关 掉 等 信息 。 

IHS 研究 公司 表示 ,2011 年 Netfix 的 网 上 电影 营 收 超过 苹果 , 网 络 电影 销量 占据 美 
国 用 户 在 线 电 影 总 销量 的 45%， 这 主要 得 益 于 网 络 用 户 对 在 线 视频 的 强大 需求 。 

在 美国 众多 的 视频 服务 商 里 ，Netflix 是 最 早 尝试 将 大 数据 和 媒体 行业 结合 起 来 的 公 
司 。 现 在 Netflix 公司 开始 推出 自己 的 原创 节目 , 而 节目 制作 的 依据 正 是 刚刚 提 到 的 这 些 
数据 。 例 如 ，Netflix 最 新 投资 的 电视 剧 “House of Cards”( 纸牌 屋 )， 让 人 们 见识 了 大 
数据 分 析 对 Netflix 这 样 的 新 媒体 公司 的 价值 。 

现在 的 Netflix 不 只 提供 线 上 影片 出 租 与 影片 推荐 服务 , 更 是 一 家 能 够 推出 自制 影集 
的 全 方位 娱乐 公司 ， 其 商业 模式 主要 有 两 点 ， 如 表 3-1 所 示 。 


图 


表 3-1 Netflix 的 商业 模式 


打破 原先 的 单 片 出 租 模式 ， 改 成 创新 的 月 租 式 服务 ， 没 有 到 期 日 也 没有 延迟 
罚款 ， 消 费 者 再 也 不 用 担心 还 片 的 问题 。 当 消费 者 在 线 上 选 好 想 看 的 影片 后 ， 
Netflix 便 会 运用 其 配送 网 络 ， 在 一 天 内 寄 出 


商业 模式 


DVD 邮寄 出 租 
服务 


商业 模式 主要 特点 

利用 数据 分 析 , 根据 消费 者 过 去 的 影片 评价 ， 预 测 消费 者 接 下 来 会 想 看 什么 样 
线 上 影片 推荐 | 的 影片 ， 因 此 Netflix 发 展 出 Cinematch 影片 推荐 引擎 (Video Recommendation 
系统 Engine)， 其 运用 Big Data (大 数据 ) 和 Data Mining (数据 挖掘 )， 为 消费 者 推 


荐 影片 


当初 ，Netflix 由 于 缺乏 相应 的 设计 人 员 和 数据 平台 ， 因 此 颁发 了 100 万 美金 大 奖 ， 
希望 世界 上 的 计算 机 专家 和 机 器 学 习 专 家 们 能 够 改进 Netflix 推荐 引擎 的 效率 。 随 后 , 来 
自 186 个 国家 的 四 万 多 个 团队 经 过 近 3 年 的 较量 ， 一 个 由 工程 师 、 统 计 学 家 、 研 究 专家 
组 成 的 团队 夺 得 了 Netflix 的 大 奖 ， 该 团队 成 功 地 将 Netflix 的 影片 推荐 引擎 的 推荐 效率 提 
高 了 10%。Netflix 大 奖 的 参赛 者 们 不 断 改进 影片 推荐 效率 ，Netflix 的 客户 已 经 为 此 获 益 。 

根据 Sandvine 市 调 公司 研究 报告 ， 其 下 载 量 占 全 美 网 络 下 载 量 的 32.25%， 以 绝对 
优势 占据 第 一 名 的 位 置 ， 如 图 3-1 所 示 。 
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Source: Sandvine 
3-1 2013 年 上 半年 全 美 网 络 视频 下 载 量 统计 
专家 提醒 


Netflix 在 全 球 拥有 超过 2500 万 用 户 ， 每 日 平均 3000 万 次 的 点 击 、 播 放 、 暂 停 、 快 转 、 
回 播 ，400 万 次 的 评价 行为 ，300 万 次 的 搜索 动作 。 


3.1.2 家谱 网 : 建立 更 准确 的 血缘 关系 


家 谱 网 到 底 有 何 魅 力 ， 先 看 看 下 面 的 两 个 资料 。 
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资料 1: 著名 主持 人 马丁 是 马英九 的 远房 亲 威 ， 且 上 比 马 英 九 长 6 代 一 一 两 人 均 出 自 
扶风 马 氏 ， 赵 国 大 将 军 赵 奢 ( 马 服 君 ) 之 后 。 马 丁 是 赵 奢 的 第 65 世 孙 ， 而 马英九 是 赵 
奢 的 第 71 世 孙 。 

资料 2: 一 个 是 中 国 奥运 历史 上 首位 冠军 的 安徽 人 许 海峰 ， 一 个 是 来 自 台 北 的 音乐 
人 许 常德 ， 两 位 相隔 几 千 公 里 的 许 姓 男 人 ， 却 有 着 一 位 共同 的 显赫 祖先 一 一 唐 朝 宰相 唐 
敬宗 。 

这 些 信息 来 自 于 2008 年 在 国内 上 线 的 家 谱 网 ( jiapu.com )， 它 是 美国 家 谱 网 站 
Ancestry 的 中 国 版 。Ancestry.com ( 家 谱 网 ) 是 一 家 家 谱 在 线 服务 网 站 ， 拥 有 10PB 的 
家 族 遗 传 数据 ， 如 图 3-2 所 示 。 
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3-2 Ancestry.com (家 谱 网 ) 主页 


长 久 以 来 ，Ancestry.com 都 是 使 用 apache Hadoop 以 及 其 他 的 开源 工具 来 进行 数 
据 处 理 和 分 析 的 。 然 而 ， 想 要 将 Hadoop 架构 与 dba 数据 处 理 联系 起 来 ， 就 极 具 挑战 
性 ， 其 中 之 一 就 是 团队 建设 。 因 此 ，Ancestry.com 构建 了 自己 的 搜索 引擎 ， 并 对 算法 以 
及 记录 连接 软件 进行 了 仔细 的 调 优 ， 该 引擎 可 以 对 网 站 的 结构 化 数据 和 非 结构 化 数据 进 
行 遍历 。 

Ancestry.com 网 站 包含 了 大 量 出 生 、 死 亡 、 人 口 普 查 以 及 其 他 相关 记录 ， 这 些 记 录 
起 初 大 多 是 非 结构 化 数据 。 随 着 用 户 以 及 家 族 数据 的 不 断 增长 ，Ancestry.com 公司 希望 
改善 其 信息 检索 的 算法 。 

不 久 后 ， 公 司 招 募 了 一 些 数 据 科 学 家 ， 他 们 选择 使 用 最 新 的 工具 ， 把 Hadoop、 
mapreduce 以 及 R 语言 引入 了 Ancestry.com 的 工具 集 。Ancestry.com 的 团队 使 用 
Hadoop 架构 来 对 搜索 进行 优化 , 同时 对 客户 流失 率 进行 预测 建 模 , 并 开始 使 用 Hadoop 
以 及 相关 的 hbase nosql 列 式 数据 存储 来 对 Ancestry DNA 产品 进行 扩展 。 新 的 大 数据 


平台 利用 高 级 内 容 处 理 技 术 对 全 部 相关 信息 加 以 索引 ， 使 用 染色 体 DNA 测试 技术 来 为 
用 户 提 供 更 好 的 服务 ， 从 而 保证 数据 的 可 搜索 性 ， 甚 至 能 够 对 远亲 进行 准确 识别 ， 从 而 
让 Ancestry. com 获得 用 户 的 认可 。 

例如 ，Ancestry.com 通过 对 唾液 进行 采样 ， 能 够 对 客户 的 DNS 进行 排序 并 将 结果 
与 数据 库 中 的 其 他 客户 加 以 匹配 ， 客 户 甚至 可 以 找到 多 年 没有 联系 的 表亲 。 


专家 提醒 

目前 ， 家 谱 网 累积 的 华人 家 谱 总 库 中 ， 包 含 65584 种 家 谱 数据 ， 年 代 跨 越 明 、 清 、 民 国 
以 及 当代 ， 地域 履 盖 24 个 省 及 地 区 。 其中， 最早 能 追溯 到 1498 年 (明代 ) 休 宁 陪 郭 (地 名 ) 
的 叶 氏 世 谱 。 

Ancestry.com 帮助 人 们 将 自己 与 家 庭 史 结合 起 来 并 创建 独一无二 的 树 状 家 谱 。 从 表 
面 上 看 ， 这 个 主意 似乎 没什么 技术 含量 ， 但 为 了 实现 这 项 功能 ， 网 站 需要 维护 超过 110 
亿 条 记录 与 高 达 4PB 的 数据 量 一 一 其 中 包括 历史 记录 、 出 生 记 录 、 死 亡 记 录 、 战 争 与 移 
动 记录 甚至 年 鉴 等 ， 其 中 不 少 往往 采取 手写 格式 。 

想 要 构建 这 一 大 数据 平台 ， 需 要 涉及 大 量 的 操作 ， 大 约 有 70 万 个 DNA 样本 要 与 
Ancestry.com 数据 库 汇总 已 有 的 相同 数量 样本 进行 配对 比较 ,Ancestry.com 的 团队 对 学 
术 算 法 进行 了 改写 ， 从 而 可 以 在 Hadoop 和 hbase 上 运行 并 行 的 任务 ， 这样 做 可 以 大 大 
提升 海量 数据 处 理 的 速度 。 

Ancestry.com 拥有 明晰 的 盈利 方式 以 及 庞大 的 付费 用 户 。 付 费用 户 可 以 分 为 两 类 ， 
查看 美国 本 土 资料 的 用 户 和 查看 世界 资料 的 用 户 ， 但 收费 不 同 。 另 外 ， 在 开发 个 人 用 户 
价值 之 外 ，Ancestry.com 还 盯 上 了 企业 用 户 , 例如 数据 库 能 使 得 企业 的 宣传 销售 更 具 针 
对 性 ， 以 便 提供 个 性 化 服务 。 数 据 库 里 的 庞大 家 谱 相 当 于 “商品 "， 用 户 有 需要 时 ， 便 
可 付费 购买 。 


3.1.3 ”西奈 山 : 更 深刻 地 理解 数据 形态 


西奈 山 医院 始 建 于 1852 年 ， 是 美国 历史 最 悠久 和 最 大 的 教学 医院 之 一 ， 以 其 在 临 
床 治疗 、 教 学 和 科研 方面 的 杰出 成 绩 而 闻名 于 世 。 

西奈 山 医 院 的 很 多 新 设备 都 是 用 来 采集 分 析 数据 的 ， 它 运行 Hadoop 软件 进行 大 数 
据 分 析 。 医 院 希望 计算 机 专家 利用 大 数据 来 寻找 联系 ， 例 如 在 ICU 中 发 现 的 微生物 的 
DNA， 或 者 跟踪 那些 使 用 家 用 监控 器 的 病人 发 来 的 数据 流 。 

来 自 Facebook 的 首席 数据 科学 家 杰 夫 “。 哈 默 巴赫 尔 ( Jeff Hammerbacher ) 负责 
设计 这 一 切 ， 他 用 分 析 目 标 在 线 广告 的 数据 技术 来 分 析 各 类 基因 数据 和 生物 学 信息 ， 目 
的 是 减少 医疗 费用 ， 同 时 探索 “个 性 化 医疗 "。 

目前 ,西奈 山 医院 正 利用 来 自 大 数据 新 兴 企业 Ayasdi 公司 的 技术 对 整个 大 肠 杆 菌 基 
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因 组 序列 进行 分 析 ， 其 中 包括 超过 100 万 个 DNA 变异 ， 旨 在 努力 理解 某 些 菌株 如 何在 
与 抗生素 的 共处 中 获得 抗 药性 。 细 菌 的 抗 药性 影响 着 全 球 各 地 数 以 百 万 计 的 病人 。 
Ayasdi 的 技术 为 数学 研究 、 拓 扑 数据 分 析 ( 简称 TDA ) 开辟 了 一 片 新 天 地 ， 有 助 于 人 们 
更 深刻 地 理解 数据 形态 。 

在 研究 的 基础 上 建立 相应 的 数据 库 ， 结 合 日 益 普及 的 个 人 基因 监测 服务 ， 正 成 为 个 
性 化 医疗 的 基础 。 个 性 化 医疗 会 彻底 改变 我 们 对 待 健康 和 疾病 的 方式 ， 无 论 从 政府 、 技 
术 、 学 术 还 是 产业 层面 ， 个 性 化 医疗 都 是 大 势 所 趋 。 


3.1.4 ”CAIISO: 实现 电厂 电网 的 智能 化 


两 喜 冯 疝 曾 全 . 测 距 才 


美国 加 利 福 尼 亚 州 独立 系统 运营 商 ( California Independent System Operator， 
CAIISO ) 管理 着 全 加 州 地 区 超过 八成 电网 中 的 供电 走向 ， 每 年 提供 的 电力 达到 2.89 亿 
千 万 时 ， 惠 及 3500 万 民众 ， 供 电线 路 的 总 长 度 超过 25000 英里 。 

CAIISO 所 有 的 大 型 电厂 都 已 经 用 上 了 企业 后 台 办 公 系 统 ， 其 中 包括 地 理 信 息 系 统 
( GIS )、 停 电 管理 以 及 配 电 管理 系统 ( DMS )。 为 了 实现 电网 的 智能 化 ，CAIISO 利用 
带 有 分 析 工 具 的 历史 数据 功能 接收 数据 流 ， 将 其 与 历史 模式 进行 比较 和 对 比 ， 以 便 找 出 
数据 中 的 异常 情况 ， 如 图 3-3 所 示 。 
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图 3-3 独立 运营 商 (ISO) 基础 设施 中 的 关键 组 件 


调度 协调 


ISO 利用 Space-Time Insight 公司 的 软件 实现 情景 智能 化 机 制 ， 从 而 将 来 自 多 个 来 
源 的 大 规模 数据 进行 关联 与 分 析 一 一 其 中 包括 天 气 状况 、 传 感 器 数据 以 及 计量 设备 测绘 
结果 等 ， 并 以 可 视 化 形式 帮助 用 户 查看 并 理解 如 何 对 可 再 生 能 源 进行 优化 ， 以 实现 整个 
电网 的 电力 供需 平衡 并 快速 应 对 潜在 危机 。 


3.1.5 ”Hydro One: 把 大 数据 放 地 图 上 
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Hydro One ( 英语 Ontario， 简 称 安 省 ) 是 加 拿 大 安大略 省 多 伦 多 市 最 大 的 电力 输送 ” 慎 当 
集团 ， 负 责 为 全 省 的 家 庭 及 企业 提供 电力 。Hydro One 公司 拥有 并 经 营 安大略 省 内 总 长 
达 29000 公里 的 高 压 输 电网 络 以 及 总 长 达 123000 公里 、 直 接 面向 130 万 用 户 的 低压 配 
电 系 统 ， 如 图 3-4 所 示 。 
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3-4 Hydro One 公司 的 高 压 输 电网 


Hydro One 使 用 的 是 由 Space-Time Insight 提供 的 地 理 空间 与 可 视 化 分 析 软 件 ， 旨 
在 改进 当前 输电 与 配 电 资产 的 健康 性 与 可 靠 性 。Space-Time Insight 是 一 家 将 大 数据 、 
数据 可 视 化 、 地 图 LBS 服务 三 者 整合 起 来 的 公司 , 他们 将 企业 需要 的 大 量 专业 数据 以 地 
理 信息 的 形式 展现 在 地 图 上 , 让 人 们 更 好 地 了 解 、 比 较 和 研究 他 们 所 需 的 信息 , 如 图 3-5 
所 示 。 

Space-Time Insight 打造 的 这 套 系统 能 帮助 资产 管理 者 及 时 获取 相关 情报 ， 包 括 资 
产 性 能 随时 间 推 移 而 发 生 的 变化 、 资 产 更 换 战略 以 及 资产 维护 需求 等 。 该 方案 还 能 将 数 
据 与 其 他 多 种 不 同系 统 的 功能 结合 起 来 ,包括 SAP ECC、SAP BW、GIS 系统 以 及 实时 
数据 等 ， 从 而 帮助 Hydro One 对 自身 拥有 的 资产 具备 宏观 掌控 能 力 。 
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图 3-5” ”Space-Time Insight 的 地 理 空间 与 可 视 化 分 析 软 件 


虽然 Space-Time 的 主要 重心 仍然 放 在 电力 行业 ， 但 无 疑 在 其 他 能 源 、 运 输 、 气 象 
等 行业 都 有 广阔 的 前 景 。 而 且 除 了 企业 市 场 ， 这 类 地 图 可 视 化 技术 在 传统 消费 、 生 活 服 
务 市 场 也 会 有 乐观 的 应 用 前 景 。 

专家 和 棍 醒 

在 大 数据 时 代 ， 笔者 认为 企业 更 应 该 聚焦 非 结 构 化 数据 ， 结构 化 数据 已 经 有 了 不 错 的 归 
宿 ， 非 结构 化 数据 才 是 我 们 处 理 的 难题 。 据 预测 ， 到 2020 年 ， 非 结构 化 数据 将 数 十 倍 于 传 
统 的 结构 化 数据 ， 成 为 大 数据 最 主要 的 数据 来 源 。 


3.1.6 OHSU: 结合 数据 虚拟 化 技术 


俄勒冈 健康 与 科学 大 学 ( Opegon Health and Science University，OHSU ) 是 一 所 
历史 悠久 、 以 研究 为 取向 的 最 好 的 综合 性 公立 大 学 ， 下 辖 两 所 医院 、 一 座 一 级 创伤 恢复 
中 心 和 一 家 儿童 医院 。 学 校 致力 于 人 类 健康 事业 的 发 展 ， 专 注 于 提高 食品 安全 、 疑 难 疾 
病 的 预防 与 治疗 等 方面 的 研究 。 

为 了 追踪 学 校内 4000 个 注 液 泵 的 实时 位 置 与 工作 状态 ， 更 快 地 掌握 注入 到 患者 循 
环 系 统 当 中 的 液体 、 药 物 或 者 营养 物质 ,校方 将 Stanley Black 与 Decker Disivion Stanley 
Healthcare 提供 的 Mobile View 软件 与 Tableau 软件 的 数据 虚拟 化 技术 结合 起 来 ， 改 变 
传统 的 手动 执行 方式 。 该 技术 还 允许 校方 对 历史 及 当前 资产 数量 进行 分 析 ， 进 而 更 好 地 
规划 未 来 数量 水 平 ， 提 高 库存 物资 的 分 配 与 利用 效率 。 

Tableau 公司 将 数据 运算 与 美观 的 图 表 完 美 地 结合 在 一 起 ， 如 图 3-6 所 示 。 它 的 程 


序 很 容易 上 手 ， 各 公司 可 以 用 它 将 大 量 数据 拖 放 到 数字 “画布 ”上 ， 转 眼 间 就 能 创建 好 
各 种 图 表 。 这 一 软件 的 理念 是 ， 界 面 上 的 数据 越 容易 操控 ， 公 司 对 自己 所 在 业务 领域 里 


的 所 作 所 为 到 底 是 正确 还 是 错误 ， 就 能 了 解 得 越 透彻 。 
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See more visual examples at tableausoftware.col 


图 3-6 Tableau Mobile 软件 界面 
志 家 提醒 
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如 今 ， 每 个 企业 都 会 有 很 多 数据 以 及 产生 很 多 问题 ， 为 了 分 析 这 些 数据 ， 人 们 可 以 创建 
图 表 把 数据 与 问题 联系 起 来 ， 但 很 多 时 候 大 家 不 确定 从 哪 种 图 表 可 以 得 到 自己 要 找 的 答案 。 


Tableau 通过 把 数据 搁置 于 独立 的 、 静 态 的 图 中 ， 限 制 了 能 够 解决 问题 的 范围 。 


通过 如 何 让 


数据 成 为 决策 的 核心 ， 以 数据 讲述 一 个 故事 来 做 出 决策 ， 以 及 添加 一 张 图 、 提 供 过 滤 器 以 了 
解 得 更 深入 ，Tableau 能 帮助 企业 解决 问题 ， 它 所 带 来 的 商业 洞察 力 和 回答 问题 的 速度 能 与 


你 的 思想 同步 。 


3.1.7 VTN: 公共 设施 的 实时 3D 模型 


过 去 ， 大 部 分 城市 中 的 公共 事业 机 构 都 是 采用 古老 的 手动 记录 方式 ， 处 理 地 下 的 各 
种 资产 ， 因 此 信息 准确 度 十 分 低 。 例 如 ， 居 民 往 往 会 由 于 某 条 供电 线 被 意外 切断 或 者 某 


条 供水 管线 老化 爆裂 而 受到 影响 。 


拉 斯 维 加 斯 ( Las Vegas ) 作为 美国 内 华 达 州 的 最 大 城市 ， 为 了 避免 这 些 难题 ， 市 


政 部 门 采取 智能 数据 方式 开发 出 一 套 实时 公共 事业 网 络 模型 。 另 外 ，VTN 咨询 公司 帮助 
市 政 当 局 通过 各 种 渠道 汇总 数据 , 并 利用 Autodesk 技术 创建 出 实时 3D 模型 。 这 套 模型 
中 包含 着 地 上 与 地 下 的 所 有 公共 设施 ， 目 前 已 经 被 用 于 监测 城市 地 下 设施 的 具体 位 置 以 
及 运转 状况 。 
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专家 提醒 
大 数据 虽然 在 不 同 的 应 用 场景 、 不 同 的 企业 环境 其 应 用 方式 会 千差万别 , 但 是 常见 的 基 
本 架构 是 大 同 小 异 的 。 经 过 分 析 与 处 理 ， 能够 应 用 于 实践 指导 的 信息 数据 会 被 整理 到 数据 中 
心 、 应 用 程序 以 及 基础 设施 当中 ,企业 管理 者 需要 以 此 为 基础 进一步 将 其 导入 各 类 系统 及 业 
务 流程 中 ， 并 最 终 获 得 (近乎 ) 实时 的 决策 能 力 。 


3.1.8 戴 德 县 : 实现 大 型 城市 的 智能 化 


迈阿密 - 戴 德 县 ( Miami-Dade County，Florida ) 是 位 于 美国 佛罗里达 州 东 南部 的 一 
个 县 ，2005 年 估计 人 口 达 2376014， 成 为 美国 的 第 8 大 县 。 

迈阿密 - 戴 德 县 响应 IBM 提出 的 智能 化 城市 倡议 , 希望 将 35 个 区 域 自治 单位 与 迈 阿 
密 市 聚拢 起 来 ， 以 便 做 出 更 为 明智 的 管理 决策 一 一 包括 充分 利用 水 资源 、 减 少 交通 拥堵 
以 及 改善 公共 安全 等 ， 如 图 3-7 所 示 。 
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3-7 ”智能 化 城市 的 构成 体系 


为 此 ，IBM ( 国际 商业 机 器 公司 ，International Business Machines Corporation， 
IBM ) 通过 云 计算 环境 下 的 深层 分 析 为 该 县 带 来 一 套 情报 仪表 板 ， 从 而 帮助 各 机 关 与 部 
门 彼此 协作 并 实现 可 视 化 管理 。 

智慧 城市 具有 3 项 基本 特征 ， 分 别 是 物 联 化 、 互 联 化 和 智能 化 。 基 于 这 3 个 特征 的 
IBM 智慧 地 球 计划 自 2008 年 开始 展开 ， 并 且 在 近年 来 加 速 ， 且 出 现 了 很 多 成 功 的 落地 


项 目 。 以 2012 年 为 例 ，IBM 先后 发 布 了 智慧 云 上 的 智慧 交通 新 版 本 、 智 慧 云 上 的 智能 
运算 中 心 新 版 本 及 智慧 云 上 的 智慧 水 利 新 版 本 。 基 于 这 一 系列 方案 ，IBM 搭建 了 涵盖 公 
共 安全 、 交 通 、 水 利 等 多 个 领域 的 解决 方案 ， 并 搭建 了 智能 运营 中 心 。 
专家 提醒 
笔者 认为 ， 城 市 管理 只 有 利用 大 数据 ， 才 能 获得 突破 性 改善 ， 诸 多 产业 利用 大 数据 ， 才 
能 发 现 创新 升级 的 机 会 点 ， 进 而 获得 先 发 优 势 …… 有 了 云 计 算 、 物 联网 ， 但 缺乏 大 数据 分 析 
处 理 的 核心 技术 ， 智 慧 城市 的 “大 脑 ”就 不 够 发 达 ，“ 智 商 ” 就 不 够 高 ，“ 能 力 ”就 不 够 强 。 


3.1.9 澳 网 : 利用 大 数据 分 析 做 出 决策 


澳大利亚 网 球 公 开赛 ( Australian Open， 简 称 “ 澳 网 " ) 是 网 球 四 大 满 贯 赛事 之 一 ， 
也 是 四 大 满 贯 赛事 中 每 年 最 先 登 场 的 ， 通 常 于 每 年 1 月 的 最 后 两 个 星期 在 澳大利亚 墨 尔 
本 市 的 墨尔本 公园 举行 。 

澳大利亚 网 球 公 开赛 的 总 奖金 在 2013 年 达到 3100 万 澳元 ( 3260 万 美元 ), 是 四 大 
满 贯 中 奖金 最 高 的 赛事 。 澳 大 利 亚 网 球 公开 赛 自 1905 年 创办 以 来 ， 至 今 已 经 走 过 了 一 
百 多 年 的 历史 ， 赛 事 目前 由 澳大利亚 网 球 协会 ( Tennis Australia ) 主办 。 

在 平时 ， 澳 大 利 亚 网 球 协 会 的 运作 状态 与 普通 的 小 型 企业 没什么 差别 ， 然 而 一 旦 到 
了 为 期 两 周 的 澳 网 公开 赛 时 期 ， 协 会 瞬间 就 成 了 一 家 规模 庞大 、 对 数据 极度 渴求 的 大 
型 企业 一 一 他 们 需要 不 间断 地 访问 准确 内 容 、 数 据 以 及 统计 结果 ， 从 而 进行 分 析 并 做 出 
决策 。 

下 面 提供 一 组 2013 年 度 澳 大 利 亚 网 球 公 开赛 的 统计 资料 : 

> ”684457 名 球迷 到 现场 观看 了 比赛 。 

> 澳 网 网 站 有 1410 万 绝对 造访 人 次 。 

> 澳 网 Social Leaderboard 追踪 到 900 多 万 涉及 球员 的 Twitter。 

> ”澳大利亚 网 球 协会 在 比赛 期 间 获取 了 约 60TB 的 数据 和 视频 资源 ， 本 次 赛事 男子 

抽签 127 场 比赛 打 了 764 盘 。 

目前 , 澳大利亚 网 球 协会 采用 IBM 的 实时 数据 分 析 软 件 来 检查 赛程 进行 状态 、 运 动 
员 人 气 、 历 史 数据 记录 以 及 社交 媒体 上 球迷 们 对 比赛 网 站 提出 的 数据 需求 。 根 据 实 际 需 
求 ， 这 项 技术 能 够 为 分 析 工 作 分 配 必要 的 计算 资源 。 

澳大利亚 网 球 公 开赛 网 站 上 提供 IBM SlamTracker 工具 , 用 以 分 析 8 年 大 满 贯 赛事 
比赛 的 4100 万 个 数据 点 ， 如 图 3-8 所 示 。 除 了 其 他 方面 之 外 ， 该 工具 还 有 一 项 功能 ， 
称 为 “Keys to the Match”"， 可 帮助 球迷 了 解 球员 为 了 在 某 项 特定 比赛 中 取胜 ， 需 要 做 
哪些 工作 。 当 一 场 比赛 拉 开 帷幕 时 , 该 工具 根据 关键 点 测评 每 个 球员 的 表现 并 实时 更 新 ， 
从 而 提供 更 深入 的 洞察 力 ， 包 括 高 比例 第 二 发 球 接 发 或 者 上 网 成 功率 是 否 有 助 于 挑 高 球 
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过 人 。 

例如 ， 在 李娜 与 小 威廉 姆 斯 的 比赛 中 ， 李 娜 一 方 获 得 赢 球 的 关键 包括 3 个 指标 ( 如 
图 3-8 所 示 ): 1. 一 发 ( 首次 发 球 ) 得 分 率 超过 69%; 2. 4~ 9 拍 相 持 中 得 分 率 要 超过 
48%; 3， 发 球 局 30-30 或 40-40 时 得 分 率 要 超过 67%。 


Arthur Ashe Stadium - Women's Singles - Semifinals 


6 6 


MATCH SUMMARY + SET1 » SET2 * 


1. Win more than 52% of 4 to 9 shot rallles, 1. Win more than 69% of polnts on first seve. 
一 一 一 一 


es 
S28% 二 


2. Win more than 32% of first serve ratum polnts 2. Win more than 48% of 4 to 9 shol rallies 
一 一 一 一 一 一 一 
了 5 


3 Win more than 67% of points when seving at 
3. Win more than 65% of points on first serve. 30-30 or Deuce. 
~ 一 一 一 一 一 


Cn 
5 1 
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而 在 实际 的 比赛 中 ， 李 娜 只 完成 了 第 二 项 指标 ， 相 比 之 下 ， 小 威廉 姆 斯 则 完成 了 两 
个 指标 。 因 此 ， 据 此 分 析 ， 李 娜 出 局 主要 跟 一 发 得 分 率 低 、 双 方 平分 时 未 能 获得 关键 分 
数 有 关 。 

为 了 打造 完善 的 大 数据 基础 设施 ， 澳 大 利 亚 网 球 协会 还 与 Aruba 共同 构筑 安全 可 
靠 、 灵 活 、 可 扩展 的 无 线 网 络 ， 而 它 所 具备 的 环境 意识 功能 ， 更 可 有 效 地 管理 紧凑 赛程 
网 络 状况 。 这 意味 着 协会 能 够 非常 准确 预测 网 络 连接 需求 高 峰 的 时 间 和 地 点 ， 从 而 调整 
网 络 满 足 所 需 。 
据悉 ， 在 2013 年 澳 网 比赛 的 两 周 内 ， 单 是 #ausope 标签 就 有 一 百 多 万 条 微 博 ， 澳 
网 Facebook 页 面 增加 到 约 887158。 社 交 媒体 洞察 力 在 澳大利亚 网 球 协 会 和 其 他 机 构 的 
决策 以 及 与 客户 互动 方面 , 具有 越 来 越 重要 的 作用 。 在 该 满 贯 赛事 期 间 , 使 用 先进 的 IBM 
分 析 软 件 和 自然 语言 处 理 技 术 来 评估 Twitter、Facebook、 新 闻 网 站 、 博 客 和 视频 等 网 
站 上 数 十 万 社交 媒体 消息 分 享 的 正面 和 负面 情绪 。 

专家 提醒 

数据 分 析 已 经 深入 体育 运动 , 并 且 在 改变 体育 运动 的 发 展 模式 。 大 数据 将 改变 我 们 消费 、 
观看 网 球 等 体育 运动 以 及 与 其 进行 互动 的 方式 . 那些 拥护 并 利用 该 技术 为 业务 决策 以 及 与 球 
迷 联 络 提 供 相 关 信 息 的 机 构 ， 和 竞争 对 手相 比 ， 将 赢得 竞争 优势 。 


3.1.10 ”DPR: 结合 3D 技术 与 大 数据 


.. 户 光 + 


美国 加 州 大 学 旧金山 分 校 斥资 15 亿美 元 在 米 慎 湾 兴建 了 一 座 医 学 中 心 ， 这 也 是 第 
一 座 建造 时 间 超 过 十 年 的 医学 中 心 ， 承 包 商 为 DPR Construction 公司 。 

DPR Construction 公司 利用 Autodesk 公司 的 3D 技术 ， 帮 助 设计 师 们 收集 空气 流 
量 、 建 筑 物 朝向 、 楼 体 间 距 、 环 境 永 续 性 以 及 建筑 性 能 等 数据 ， 并 将 结果 导入 到 一 套 单 
独 的 虚拟 模型 当中 。 通 过 这 种 方式 ， 建 筑 师 、 设 计 师 以 及 旗 工 队伍 能 够 以 可 视 化 方式 掌 
握 遍 布 整 个 运作 环境 下 的 数 亿 个 数据 标记 。 

专家 提醒 

Autodesk 公司 的 Vault 数据 管理 软件 可 以 帮助 设计 、 工 程 和 施工 团队 组 织 、 管 理 和 跟踪 
数据 创建 、 仿 真 和 文档 编制 流程 。 借 助 版 本 管理 功能 ， 企 业 可 以 更 好 地 控制 设计 数据 ， 快 速 
查找 和 重用 设计 数据 ， 从 而 更 加 轻松 地 管理 设计 与 工程 信息 。 使 用 Autodesk Vault 后 ， 用 户 
可 以 在 一 个 平台 下 管理 所 有 的 CAD 和 非 CAD 数据 ， 从 而 提高 工作 效率 ， 如 图 3-9 所 示 。 
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3.2 ” 棍 金 红海 ，10 大 大 数据 分 析 平 台 


“大 数据 ” 近 几 年 来 可 谓 茵 勃发 展 ， 它 不 仅 是 企业 趋势 ， 也 是 一 个 改变 了 人 类 生活 
的 技术 创新 。 在 大 数据 的 帮助 下 ， 警 察 可 以 通过 犯罪 数据 和 社会 信息 来 预测 犯罪 率 ， 部 
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分 科学 家 通过 遗传 数据 预测 疾病 的 早期 迹象 。 可 以 说 , 现在 整个 行业 都 非常 看 好 大 数据 。 
毫 无 疑问 ， 在 大 数据 时 代 下 ， 企 业 和 机 构 要 想 实 现 更 大 的 业务 价值 ， 首 先 需要 解决 
的 就 是 基础 架构 问题 ， 基 础 架构 之 中 存储 又 是 重 中 之 重 。 目 前 ,我 国 从 事 大 数据 领域 的 
企业 少 之 又 少 ， 而 国外 的 科技 企业 将 大 数据 看 作 是 云 计算 之 后 的 另 一 个 巨大 商机 ， 很 多 
企业 开始 加 入 到 大 数据 的 淘金 队伍 中 ， 这 一 领域 已 经 成 为 实 实 在 在 的 红海 。 
本 节 将 介绍 全 球 10 大 著名 的 大 数据 分 析 平台 ( 注意 : 排名 不 分 先后 )， 他 们 是 大 数 
据 领域 的 “时 代 先 锋 "， 他 们 都 看 到 了 大 数据 带 来 的 大 机 会 。 


IBM: 大 数据 领域 的 传统 巨头 


企业 名 称 : 
分 析 平 台 : 
上 线 时 间 : 
公司 地 址 : 
企业 网 址 : 
主要 业务 : 
业务 方向 : 


S24 


IBM ( 如 图 3-10 所 示 ) 

InfoSphere 大 数据 分 析 平 台 

2011 年 5 月 

美国 纽约 州 阿 蒙 克 市 

http://www.ibm.com/ 

软件 、 服 务 器 、 存 储 、IT 服务 以 及 云 计 算 等 解决 方案 
主要 面向 大 企业 等 


图 3-10 IBM Logo 


IBM 是 一 个 拥有 101 年 历史 的 公司 ， 总 部 在 美国 东海 岸 。 它 曾经 生产 打字 机 ， 还 生 
产 大 型 PC 机 ， 其 产品 使 用 开源 技术 进行 交互 操作 。 在 IBM 的 发 展 过 程 中 ， 很 多 产品 都 
是 通过 一 系列 兼并 得 来 的 。 最 重要 的 是 ，IBM 是 一 家 服务 公司 ， 有 着 工作 在 全 球 各 地 的 
顾问 团队 。 
IBM 向 我 们 展示 了 将 大 数据 与 企业 连接 的 重要 性 和 一 个 主流 服务 组 织 ， 它 还 展示 了 
向 业务 软件 中 嵌入 分 析 功 能 的 力量 。 
2011 年 5 月 ，IBM 正式 推出 InfoSphere 大 数据 分 析 平 台 。InfoSphere 大 数据 分 析 
平台 包括 Biglnsights 和 Streams， 二 者 互补 。 
> Biglnsights 基于 Hadoop, 它 对 大 规模 的 静态 数据 进行 分 析 , 提供 多 节点 的 分 布 式 
计算 ， 可 以 随时 增加 节点 ， 提 升 数据 处 理 能 力 。 例 如 ， 丹 麦 能 源 企业 维 斯 塔 斯 
( Vestas ) 通过 使 用 Biglnsights 大 数据 软件 分 析 PB 字 节 级 别 的 天 气 数据 ， 改 善 
风力 涡轮 机 的 放置 位 置 ， 从 而 获得 最 佳能 量 输出 效果 一 一 以 前 需要 数 周 方 可 完成 
的 分 析 现在 仅 需 不 到 一 个 小 时 。 


D> 


世家 提醒 
Hadoop 本 身 不 提供 分 析 的 功能 ， 因 此 BigInsights 平台 增加 了 文本 分 析 、 统 计 分 析 工 具 。 
> Streams 采用 内 存 计算 方式 分 析 实 时 数据 。Streams 最 早 是 美国 国土 安全 部 和 IBM 
合作 的 项 目 ， 国 土 安全 部 出 于 反恐 目的 ， 需 要 实时 分 析 电 话语 音信 息 ， 这 个 项 目 
最 终 发 展 成 为 一 个 商用 的 项 目 。 
另外 ，InfoSphere 大 数据 分 析 平 台 还 集成 了 数据 仓库 、 数 据 库 、 数 据 集成 、 业 务 流 
程 管理 等 组 件 。 


3.2.2 ”亚马逊 : 完美 结合 大 数据 与 云 
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企业 名 称 : 亚马逊 ( 如 图 3-11 所 示 ) 

分 析 平 台 : 弹性 MapReduce ( Amazon Elastic MapReduce ) 
上 线 时 间 : 2009 年 

公司 地 址 : 美国 华盛顿 州 西雅图 

企业 网 址 : http://www.amazon.com/ 

主要 业务 : 电子 商务 、 云 服务 

业务 方向 : 主要 面向 大 企业 等 市 场 


amazon.com 
— 


图 3-11 亚马逊 Logo 


亚马逊 的 老 本 行 是 图 书 音像 制品 销售 ， 但 现在 这 只 是 其 业务 的 一 个 组 成 部 分 ， 而 且 
已 经 不 是 公司 业务 的 核心 。 如 今 ， 亚 马 逊 已 经 成 为 一 家 拥有 大 数据 ， 并 以 此 获得 持续 利 
润 的 云 计 算 企 业 。 电 子 商务 的 数据 ， 合 并 在 这 些 大 数据 之 中 ， 仅 仅 是 亚马逊 将 数据 变 为 
现金 的 一 种 方式 。 

亚马逊 对 于 云 计算 和 大 数据 具有 先 见 之 明 , 早 在 2009 年 就 推出 了 "弹性 MapReduce 
( Amazon Elastic MapReduce )” 系 统 。MapReduce 本 身 是 一 种 编程 模型 ， 用 于 大 规 
模 数 据 集 ( 大 于 1TB ) 的 并 行 运算 ， 常 用 作 Web 索引 、 数 据 挖掘 、 日 志文 件 分 析 、 金 
融 分 析 、 科 学 模拟 和 生物 信息 研究 等 。 

然而 ,“ 弹 性 MapReduce” 是 一 项 能 够 迅速 扩展 的 Web 服务 ， 其 运行 在 亚马逊 弹 
性 计算 云 ( Amazon EC2 ) 和 亚马逊 简单 存储 服务 ( Amazon S3 ) 上 。 面 对 数据 密集 型 
任务 ， 例 如 互联 网 索引 、 数 据 挖掘 、 日 志文 件 分 析 、 机 器 学 习 、 人 金融 分 析 、 科 学 模拟 和 生 
物 信息 学 研究 ， 用 户 需 要 多 大 容量 ,“ 弹 性 MapReduce” 系 统 立 即 就 能 配置 到 多 大 容量 。 

对 于 MapReduce， 笔 者 认为 可 以 将 其 简单 理解 为 : 把 一 堆 杂 乱 无 章 的 数据 按照 某 
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种 特征 归纳 起 来 ， 然 后 处 理 并 得 到 最 后 的 结果 。 
专家 提醒 
亚马逊 的 “弹性 MapReduce” 服 务 系统 是 在 AWS 平台 ( AWS Enterprise BPM Platform， 
业务 流程 管理 开发 平台 ) 之 上 的 Hadoop 实现 ， 它 用 来 简化 新 的 MapReduce 应 用 ， 从 而 让 这 
项 技术 拥有 更 加 广大 的 受众 。 


3.2.3 甲骨文: 高 集成 度 大 数据 平台 


企业 名 称 : 甲骨 文 ( 如 图 3-12 所 示 ) 

分 析 平 台 : Oracle 大 数据 机 

上 线 时 间 : 2010 年 

公司 地 址 : 美国 加 利 福 尼 亚 州 红木 滩 

企业 网 址 : http://www.oracle.com/ 

主要 业务 : 数据 库 、 应 用 软件 以 及 相关 的 咨询 、 培 训 和 支持 服务 
业务 方向 : 主要 面向 大 企业 等 市 场 


ORACLE 


图 3-12 甲骨 文 Logo 


甲骨 文公 司 ， 全 称 甲骨 文 股份 有 限 公 司 ， 是 全 球 最 大 的 企业 软件 公司 ， 也 是 继 
Microsoft 及 IBM 后 全 球 收 入 第 三 多 的 软件 公司 。 

伴随 大 数据 而 至 ， 大 数据 分 析 和 管理 得 当 与 否 将 对 企业 数据 中 心 产生 极 大 影响 。 作 
为 全 球 最 大 数据 库 软 件 公司 ， 甲 骨 文 应 时 而 行 ， 推 出 针对 大 数据 的 众多 技术 产品 来 满足 
企业 需求 ， 同 时 提升 自身 的 价值 。 

2011 年 10 月 ， 甲 骨 文 正式 推出 了 Oracle 大 数据 机 ( Oracle Big Data Appliance ) 
为 许多 企业 提供 了 一 种 处 理 海量 非 结构 化 数据 的 方法 。 尤 其 是 对 于 那些 正在 寻求 以 更 高 
效 的 方法 来 采集 、 组 织 和 分 析 海 量 非 结构 化 数据 的 企业 而 言 , 该 产品 具有 很 大 的 吸引 力 。 

Oracle 大 数据 机 同 Oracle Exadata 数据 库 云 服 务 器 、Oracle Exalytics 商务 智能 云 
服务 器 和 Oracle Exalogic 中 间 件 云 服 务 器 一 起 组 成 了 Oracle 最 广泛 的 高 度 集成 化 系统 
产品 组 合 ， 其 可 以 帮助 客户 获取 和 管理 各 种 类 型 的 数据 ， 并 且 可 结合 现 有 企业 数据 来 分 
析 ， 获 得 新 的 见解 ， 从 而 帮助 客户 在 充分 获取 信息 的 情况 下 做 出 最 恰当 的 决策 。 


专家 提醒 
Oracle 大 数据 机 能 够 拥有 强大 优化 企业 数据 仓库 的 能 力 ， 主 要 源 自 其 配备 有 Oracle Big 
Connectors 软件 。Oracle 大 数据 机 旨 在 帮助 客户 利用 Oracle 数据 库 11g 便捷 整合 存储 在 
Hadoop 和 Oracle NoSQL 数据 库 中 心 的 数据 。 


3.2.4 谷歌 : 价值 无 可 估量 的 大 数据 


企业 名 称 : 
分 析 平 台 : 
上 线 时 间 : 
公司 地 址 : 
企业 网 址 : 
主要 业务 : 
业务 方向 : 


谷歌 ( 如 图 3-13 所 示 ) 

BigQuery ( [ 
2011 年 OOS 
美国 加 利 福 尼 亚 州 山 景 城 

http://www.google.com/ 3-13 谷歌 Logo 


互联 网 搜索 、 云 计算 、 广 告 技术 
面向 各 类 企业 市 场 


Google 在 搜索 界 的 地 位 是 无 人 能 及 的 。 但 是 ，Google 的 产品 和 服务 早已 不 仅仅 局 


限于 搜索 。 如 今 


,Google 的 产品 包括 广告 ( AdWords ) 交流 和 分 享 ( Drive 和 Hangouts )、 


开发 资源 ( OpenSocial ) 社交 网 络 ( Google + )、 地 图 ( Google Maps )、 流 媒 体 ( Google 
Play )、 统 计 工具 ( Analytics )、 操 作 系 统 ( Android 和 Chrome OS )、 桌 面 和 移动 应 用 
( Gmail ) 以 及 硬件 ( Galaxy Nexus )。 因 此 ， 如 果 对 其 拥有 的 海量 数据 进行 深入 挖掘 ， 
这 对 于 提升 谷歌 搜索 乃至 所 有 谷歌 服务 的 价值 无 可 估量 。 

BigQuery 是 Google 于 2011 年 底 正式 推出 的 一 项 Web 服务 , 通过 该 服务 , 开发 者 
可 以 使 用 Google 的 架构 来 运行 SQL 语句 对 超大 型 的 数据 库 进 行 操作 。 即 BigQuery 可 
以 对 开发 者 上 传 的 超大 型 数据 进行 直接 交互 式 分 析 ， 开 发 者 无 需 投资 建立 自己 的 数据 中 
心 。 据 悉 ，BigQuery 引擎 可 以 快速 扫描 高 达 70TB 未 经 压缩 处 理 的 数据 ， 并 且 可 马上 得 


到 分 析 结 果 。 


3.2.5 ”微软 :“ 端 到 端 ” 大 数据 平台 


企业 名 称 : 
分 析 平 台 : 
上 线 时 间 : 
公司 地 址 : 
企业 网 址 : 
主要 业务 : 
业务 方向 : 


微软 ( 如 图 3-14 所 示 ) 


PDW、SQL Server 2012 数据 库 平 台 

2011 年 

美国 华盛顿 州 雷 德 蒙 市 二 
http://www.microsoft.com/ Microsoft 
电脑 软件 服务 3-14 微软 Logo 

面向 各 类 企业 市 场 


EMC、IBM 和 甲骨 文 在 2011 年 都 大 力 追 捧 Hadoop， 于 是 微软 也 进入 这 个 市 场 就 
不 足 为 奇 了 。 如 今 ， 微 软 已 经 具备 了 打造 “ 端 到 端 ” 的 大 数据 平台 的 能 力 。 
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专家 提醒 

“ 端 到 端 ”流程 是 从 客户 需求 端 出 发 ， 到 满足 客户 需求 端 去 提供 端 到 端 服务 ， 端 到 端的 
输入 端 是 市 场 ， 输 出 端 也 是 市 场 。 

2011 年 初 ， 微 软 发 布 了 SQL Server R2 Parallel Data Warehouse ( PDW， 并 行 数 
据 仓 库 )，PDW 使 用 了 大 规模 并 行 处 理 技 术 来 支持 高 扩展 性 ， 它 可 以 帮助 客户 扩展 部 署 
数 百 TB 级 别 数据 的 分 析 解 决 方案 。 

微软 在 2012 年 上 半年 正式 发 布 了 SQL Server 2012 数据 库 平台 ,并 添加 了 Hadoop 
的 相关 服务 ， 逐 渐 将 数据 业务 延伸 到 非 结 构 化 数据 领域 。 而 伴随 Windows Azure 
Marketplace 和 SharePoint 等 工具 的 推出 ， 微 软 已 经 具备 了 打造 端 到 端的 大 数据 平台 的 


能 力 。 
专家 提醒 

Windows Azure Marketplace 将 实现 大 数据 的 共享 ， 通 过 开放 数据 协议 ( OData ) 展现 数 
百 种 来 自 微软 和 第 三 方 的 应 用 程序 和 数据 挖 气 算 法 。 用 户 还 可 以 使 用 SQL Server 分 析 服 务 
(SSAS ) 的 Power Pivot 和 Power View， 从 结构 化 和 非 结构 化 数据 中 获得 可 执行 的 洞察 力 ， 
通过 微软 提供 的 连接 器 就 可 以 对 Hadoop 分 布 式 文件 系统 中 的 非 结构 化 数据 进行 分 析 与 展现 。 
3.2.6 EMC: 针对 海量 数据 分 析 应 用 

企业 名 称 ，EMC ( 如 图 3-15 所 示 ) 

分 析 平 台 ; EMC Greenplum Unified Analytics Platform 大 数据 分 析 平 台 

上 线 时 间 : 2011 年 

公司 地 址 : 美国 马萨诸塞 州 ( 麻 省 ) Hopkinton 市 

企业 网 址 : http://www.emc.com/ 

主要 业务 :信息 存储 及 管理 产品 、 服 务 和 解决 EMC 
方案 where information lives" 


业务 方向 : 面向 各 类 企业 市 场 图 3-15 EMC Logo 

EMC 公司 是 全 球 信息 存储 及 管理 产品 、 服 务 和 
解决 方案 方面 的 领先 公司 。 EMC 是 每 一 种 主要 计算 平台 的 信息 存储 标准 , 而 且 世 界 上 最 
重要 信息 中 的 2/3 以 上 都 是 通过 EMC 的 解决 方案 管理 的 。 

EMC 推出 了 全 新 EMC Greenplum Unified Analytics Platform ( UAP ) 平台 ， 数 据 
团队 和 分 析 团 队 可 以 在 该 平台 上 无 缝 地 共享 信息 、 协 作 分 析 。Greenplum UAP 是 唯一 
的 统一 数据 分 析 平台 ， 可 扩展 至 其 他 工具 ， 其 独特 之 处 在 于 ， 它 将 对 大 数据 的 认 知 和 分 
享 贯穿 于 整个 分 析 过 程 ， 实 现 比 以 往 更 高 的 商业 价值 。 

随 着 EMC Greenplum 统一 分 析 平 台 的 问世 , EMC 提供 关键 技术 帮助 机 构 用 户 提取 


大 量 数 据 的 核心 价 植 ， 并 创造 更 多 、 更 灵活 、 基 于 数据 的 业务 机 会 。 


EMC 为 大 数据 开发 的 硬件 是 模块 化 的 EMC 数据 计算 设备 (DCA ) ， 它 能 够 在 一 个 设 
备 里 面 运行 并 扩展 Greenplum 关系 数据 库 和 Greenplum HD 节点 。DCA 提供 了 一 个 共享 的 
旨 挥 中 心 (Command Center ) 界面 ， 让 管理 员 可 以 监控 、 管 理 和 配置 Greenplum 数据 库 和 


专家 提醒 


Hadoop 系统 性 能 及 容量 。 


3.2.7 英特尔， 用 Hadoop 靠拢 大 数据 


企业 名 称 : 
分 析 平 台 : 
上 线 时 间 
公司 地 址 : 
企业 网 址 : 
主要 业务 : 


英特尔 ( 如 图 3-16 所 示 ) 


Hadoop 商业 发 行 版 ( Apache Hadoop Distribution ) 


2012 年 

美国 加 利 福 尼 亚 州 圣 克拉 拉 市 
http://www.intel.cn/ 

客户 机 、 服 务 器 、 网 络 通信 、 互 联网 解决 


方案 和 互联 网 服务 


业务 方向 : 
司 是 全 球 最 大 的 半导体 芯片 制造 商 , 成 立 于 


英特尔 公 


面向 各 类 企业 市 场 


1968 年 。1971 年 ， 英 特 尔 推出 了 全 球 第 一 个 微 处 理 器 ， 
带 来 了 计算 机 和 互联 网 的 革命 ， 改 变 了 整个 世界 。 


2012 年 7 月 , 英特尔 公司 对 外 发 布 了 自己 的 Hadoop 商业 发 行 版 ( Apache Hadoop 
Distribution )。Hadoop 发 行 版 包含 Hadoop 分 布 式 文件 系统 HDFS、 分 布 式 数据 库 
HBase、 分 布 式 计算 框架 MapReduce、 数 据 仓 库 Hive、 数 据 处 理 Pig、 机 器 学 习 Mahout 


商业 套件 。 


英特尔 Hadoop 发 行 版 包含 了 所 有 的 分 析 、 集 成 以 及 开发 组 件 ， 并 对 不 同 组 合 之 间 
进行 了 更 加 深入 的 优化 。 此 外 ， 还 添加 了 英特尔 Hadoop 管理 器 ( Hadoop Manager )， 
其 从 安装 、 部 署 到 配置 与 监控 ， 可 以 提供 对 平台 的 全 方位 管理 。 目 前 ,英特尔 已 经 开放 
了 免费 下 载 ， 随 着 推广 力度 的 不 断 加 大 ， 相 信 英 特 尔 的 Hadoop 还 是 能 够 很 轻松 地 在 国 


内 大 数据 市 场 分 一 杯 鞭 的 。 


3.2.8 NetApp: 让 大 数据 变 得 更 简单 


企业 名 称 : 
分 析 平 台 : 
上 线 时 间 : 


NetApp ( 如 图 3-17 所 示 ) 
NetApp StorageGRID 
2011 年 


intel, 


图 3-16 英特尔 Logo 
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公司 地 址 : 美国 加 利 福 尼 亚 州 森 尼 韦 尔 
企业 网 址 : http://www.netapp.com 
主要 业务 : 储存 和 数据 管理 解决 方案 
业务 方向 : 面向 各 类 企业 市 场 


NetApp- 
图 3-17 NetApp Logo 

Network Appliance，lnc. ( 简称 NetApp， 美 国 网 域 存储 技术 有 限 公 司 ) 是 IT 存储 
业界 的 佼佼 者 ， 自 1992 年 创建 以 来 ， 不 断 以 创新 的 理念 和 领先 的 技术 引领 存储 行业 的 
发 展 。NetApp 公司 倡导 向 数据 密集 型 的 企业 提供 统一 的 存储 解决 方案 ， 用 以 整合 网 络 
上 来 自 服务 器 的 数据 ， 并 有 效 管理 呈 爆 炸 性 增长 的 数据 。 

StorageGRID 是 NetApp 的 对 象 存储 平台 ， 是 一 个 久 经 验证 的 对 象 存储 软件 解决 方 
案 ， 设 计 用 于 管理 PB 级 、 全 球 分 布 的 存储 库 ， 这 些 存储 库 包 含 企业 和 服务 提供 商 的 图 
像 、 视 频 和 记录 。 通 过 消除 数据 块 和 文件 中 数据 容器 的 典型 约束 ,NetApp StorageGRID 
提供 了 强大 的 可 扩展 性 ， 它 支持 单个 全 局 命名 空间 内 的 数 十 亿 个 文件 或 对 象 和 PB 级 容 
量 。NetApp 目前 将 StorageGRID 产品 并 入 其 E 系列 ， 属 于 分 布 式 内 容 存 储 类 别 。 

NetApp 自 创 建 以 来 ,市场 业 务 表现 亦 出 众 超群 ， 公 司 一 直 保 持 了 极 高 的 成 长 率 ， 
并 不 断 扩展 用 户 群 ， 其 客户 领域 包括 和 通信、 金融、 能源、 政府、 制造 、 教 育 及 各 类 媒体 、 
各 种 企业 和 服务 提供 商 。 


3.2.9 惠普 : 构建 灵活 的 “智能 环境 ” 


企业 名 称 : 惠普 ( 如 图 3-18 所 示 ) 

分 析 平 台 : Vertica Analytics Platform、lnformation Optimization solutions 

上 线 时 间 : 2011 年 。 

公司 地 址 ， 美 国 加 利 福 尼 亚 州 帕 罗 奥 多 市 fh 

企业 网 址 : www.hp.com 

主要 业务 : 打印 机 、 数 码 影 像 、 软 件 、 计 算 机 与 资讯 服务 

业务 方向 : 面向 各 类 企业 市 场 invent 

惠普 ( HP ) 是 一 家 业务 机 构 遍 及 全 球 170 多 个 国家 和 地 图 3-18 惠普 Logo 
区 的 科技 公司 。 作 为 世界 最 大 的 科技 企业 ， 惠 普 提 供 打 印 机 、 


D> 


个 人 计算 机 、 软 件 、 服 务 和 IT 基础 设施 等 产品 ， 帮 助 客户 解决 问题 。 

2011 年 ， 惠 普 子 公司 Vertica 发 布 Vertica Analytics Platform 大 数据 平台 ， 意 在 帮 
助 企业 迅速 洞悉 关键 的 业务 信息 ， 辅 助 决策 过 程 。Vertica Analytics Platform 能 够 让 用 
户 大 规模 实时 分 析 物 理 、 虚 拟 和 云 环 境 中 的 结构 化 、 半 结构 化 和 非 结 构 化 数据 ， 从 而 深 
入 洞悉 “大 数据 "。 

2012 年 6 月 ， 惠 普 发 布 信息 优化 解决 方案 ( Information Optimization solutions )， 
旨 在 帮助 企业 充分 利用 爆炸 性 增长 的 运营 数据 、 应 用 数据 和 设备 数据 。 

2013 年 初 ， 惠 普 推 出 了 最 新 版 本 惠普 Vertica 分 析 平 台 6.1 ( HP Vertica Analytics 
Platform 6.1 )， 其 能 够 对 大 数据 进行 简化 。 据 了 解 ， 该 平台 将 帮助 企业 通过 分 析 包 、 人 性 
能 提升 、 加 强 与 Hadoop 的 集成 以 及 简化 Amazon EC2 云 部 署 ， 从 而 优化 大 数据 并 将 其 
转化 为 利润 。 

另外 ， 惠 普 还 扩展 了 其 业界 领先 的 数字 营销 平台 ， 发 布 了 全 新 的 Autonomy 解决 方 
案 一 一 Optimost Clickstream Analytics, 其 在 电子 商务 中 为 市 场 营销 人 员 提 供 客户 访问 、 
对 话 和 参与 情况 的 单一 、 连 续 的 视图 ， 为 实现 “ 瞬 捷 ”企业 构建 灵活 的 智能 环境 。 

专家 提醒 

在 当今 瞬息 万 变 的 商业 环境 下 ，“ 瞬 捷 ” 企 业 的 创新 优势 在 于 能 够 提供 与 时 俱 进 的 、 有 
竞争 力 的 产品 和 服务 ,以 加 快 业务 增长 ， 其 优化 特性 则 是 指 具备 更 高 的 投资 回报 率 和 更 低 的 
成 本 。 


3.2.10 Sybase: 彻底 改变 大 数据 分 析 


企业 名 称 : Sybase ( 如 图 3-19 所 示 ) 

分 析 平 台 : Sybase IQ FS 

公司 地 址 : 美国 加 利 福 尼 亚 州 Dublin 市 

企业 网 址 : www.sybase.com 图 319 ;Sybase logo 

主要 业务 : 应 用 平台 、 数 据 库 和 应 用 软件 

业务 方向 : 面向 各 类 企业 市 场 

Sybase 公司 成 立 于 1984 年 11 月 ， 是 全 球 最 大 的 独立 软件 厂商 之 一 ， 致 力 于 帮助 
企业 等 各 种 机 构 进行 应 用 、 内 容 及 数据 的 管理 和 发 布 。Sybase 的 产品 和 专业 技术 服务 ， 
为 企业 提供 集成 化 的 解决 方案 和 全 面 的 应 用 开发 平台 。 

Sybase 公司 推出 的 Sybase IQ 是 一 款 为 数据 仓库 设计 的 关系 型 数据 库 。|Q 的 架构 
与 大 多 数 关 系 型 数据 库 不 同 ， 其 特别 的 设计 用 以 支持 大 量 并 发 用 户 的 即时 查询 。 它 的 设 
计 与 执行 进程 优先 考虑 查询 性 能 ， 其 次 是 完成 批量 数据 更 新 的 速度 。 而 传统 关系 型 数据 
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库 引 擎 的 设计 既 考虑 在 线 的 事务 进程 又 考虑 数据 仓库 。 
其 中 ，Sybase IQ 15.4 是 面向 大 数据 的 高 级 分 析 平 台 ， 它 将 大 数据 转变 成 可 指挥 每 
个 人 都 行动 的 情报 信息 ， 从 而 在 整个 企业 的 用 户 和 业务 流程 范围 内 轻松 具备 大 数据 的 分 
析 能 力 。 

Sybase IQ 大 大 节约 了 数据 存储 成 本 ， 而 且 通 过 其 强大 的 可 扩展 性 为 企业 提供 了 灵 
活 的 选择 。 另 外 ，IQ 比 传统 的 数据 库 更 容易 维护 ， 不 需要 经 常 的 人 工 调 优 。 简 单 的 扩展 
实现 以 及 快速 的 部 署 时 间 等 ， 都 大 幅度 地 降低 了 企业 开发 数据 仓库 的 成 本 。 


3.3 ”大 数据 旦 础 贡 施 应 用 案 倒 


目前 ， 很 多 人 只 将 眼光 盯 在 数据 分 析 与 处 理 层面 ， 而 笔者 认为 ， 用 户 在 尝试 大 数据 
解决 方案 之 前 ， 更 应 从 全 面 角度 去 审视 自身 的 基础 架构 是 否 适合 大 数据 未 来 的 需求 与 发 
展 。 简 而 言 之 ， 就 是 “大 数据 实践 ， 基 础 架构 先行 "。 只 有 如 此 ， 方 能 在 大 数据 浪潮 之 
中 淘 得 金 。 本 节 主 要 介绍 大 数据 基础 设施 的 应 用 案例 。 


3.3.1 【案例 】Streams 监控 婴儿 ICU 感染 


ICU 病 室 是 医院 主要 科室 之 一 ， 因 其 病人 多 来 自 于 院内 各 科室 ， 且 病情 危重 ， 致 使 
院内 感染 发 生 率 在 ICU 相对 增高 。 又 因 病人 治愈 后 , 又 回 散 到 原 科室 , 使 在 ICU 的 耐 药 
菌株 被 携带 到 医院 各 处 而 引起 流行 。 由 此 可 见 ， 做 好 ICU 病 室 的 感染 控制 十 分 有 必要 。 

安大略 理工 大 学 ( UOIT ) 是 加 拿 大 最 现代 的 公立 大 学 ,其 拥有 北美 一 流 的 教学 设备 
和 师资 。 学 校 目前 正在 使 用 Streams 监控 新 生 婴 儿 ， 提 前 24 小 时 预测 ICU 感染 。 

安大略 理工 大 学 健康 信息 学 首席 科学 家 Carolyn McGregor 博士 称 ， 这 一 技术 让 安 
大 略 理工 大 学 能 够 搞 清 楚 这 些 数据 并 分 析 它 们 ， 如 揭示 败血症 的 发 生前 兆 ， 以 及 这 些 问 
题 发 生前 的 多 种 条 件 。 

Streams 提供 了 一 种 操作 系统 实现 这 个 功能 ， 其 在 多 台 计算 机 之 间 共 享 一 个 特定 程 
序 ， 这 样 系统 作为 一 个 整体 就 可 以 在 不 把 数据 提交 到 硬盘 的 情况 下 生成 答案 ， 解 决 了 针 
对 能 够 实时 处 理 生成 的 海量 流 数据 的 平台 和 架构 的 一 种 迫切 需求 。 

【 案例 解析 ]， 在 本 案例 中 ，InfoSphere Streams 是 一 款 满足 即时 处 理 、 过 滤 和 分 
析 流 数据 需要 的 应 用 程序 。 流 数据 包括 传感器 数据 ( 环保 以 及 工业 生产 传感器 产生 的 数 
据 、 监 控 视频 、GPS 产生 的 数据 等 ) “数据 废气 ”( 如 网 络 /系统 /Web 服务 器 /应 用 程序 
服务 器 日 志文 件 )、 高 速 交 易 数据 ( 如 金融 交易 和 呼叫 详细 记录 ) 等 。 

预测 分 析 与 结构 化 数据 未 来 将 在 医疗 保健 领域 中 被 广泛 应 用 ， 以 帮助 降低 成 本 ， 防 
止 病人 病情 恶化 。 大 数据 分 析 平 台 使 医疗 机 构 拥 有 更 好 使 用 这 些 信息 的 能 力 ， 这 将 从 本 
质 上 改变 医疗 保健 行业 的 未 来 。 
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3.3.2 【案例 】 沃 尔 玛 打造 商 业 数 据 中 心 


在 2012 年 财政 年 度 报表 上 ， 应 钾 玛 刘 录 了 4440 亿美 元 的 销售 额 ， 这 个 数字 比 奥 地 
利 的 GDP 多 200 亿美 元 。 如 果 沃 尔 玛 是 一 个 国家 的 话 ， 它 将 是 第 26 个 世界 最 大 的 经 济 体 。 
沃尔玛 为 何 取得 如 此 大 的 成 就 ? 北 逢 从 这 ， 沃尔玛 其 实 是 最 早 通 过 利用 大 数据 而 受 
益 的 企业 之 一 ， 曾 经 拥有 世界 上 最 大 的 数据 仓库 系统 。 早 在 2007 年 ， 沃 尔 玛 就 已 建立 
了 一 个 超大 的 数据 中 心 ， 其 存储 能 力 高 达 4PB 以 上 。( 经 济 学 人 》 曾 报道 ， 沃 尔 玛 的 数 
据 量 已 经 是 美国 国会 图 书馆 的 167 倍 。 
众所周知 ， 沃 尔 玛 的 供应 链 是 全 球 零售 商 中 最 先进 的 。 早 在 20 世纪 80 年 代 ， 沃 尔 
玛 就 率先 开发 数据 交换 系统 ( Electronic Data Interchange，EDI ) 与 供应 商 信息 系统 直 
接 对 接 ， 实 现 了 商品 的 自动 补 货 。 如 图 3-20 所 示 为 基于 EDI 的 供应 链 信息 组 织 与 集成 
模式 。 为 了 加 强 数 据 的 共享 ， 沃 尔 玛 还 投资 4 亿美 元 发 射 卫星 进行 全 球 数据 联网 。 通 过 
全 球 网 络 , 沃尔玛 数 千家 门店 可 在 一 小 时 内 对 每 种 商品 的 库存 、 在 架 以 及 销售 盘点 一 遍 。 


Ee! 言 息 、 销 售 点 信息 。 销售 点 信 全 


Ce 港口 税 
< nes 
3-20 ”基于 EDI 的 供应 链 信息 组 织 与 集成 模式 


沃尔玛 全 球 电子 商务 总 监 Stephen O'Sullivan 称 , 沃尔玛 实验 室 计划 将 沃尔玛 的 10 
个 不 同 的 网 站 整合 成 一 个 ， 同 时 将 一 个 10 个 节点 的 Hadoop 集群 扩展 到 250 个 节点 的 
Hadoop 集群 。 目 前 ， 实 验 室 正在 设计 几 个 能 将 当前 像 Oracle、Neteeza 这 样 的 开放 资 


源 的 数据 库 进行 迁移 、 整 合 的 工具 。 
沃尔玛 还 通过 先进 的 大 数据 预测 分 析 技 术 发 现 两 个 电子 产品 连锁 店 Source 和 
Carlie Brown 的 顾客 的 购买 意向 正在 向 高 档 产品 转 移 ， 并 及 时 调整 了 两 家 店 的 库存 ， 一 
举 将 销售 业绩 提升 了 40%。 大 数据 分 析 技 术 使 得 沃尔玛 能 够 实时 对 市 场 动态 做 出 积极 响 
应 。 通 过 对 消费 者 的 购物 行为 等 非 结构 化 数据 进行 分 析 ， 沃 尔 玛 成 为 最 了 解 顾客 购物 习 
惯 的 零售 商 ， 并 创造 了 “啤酒 与 尿布 ”的 经 典 商 业 案例 。 
沃尔玛 曾 进行 了 一 系列 的 收购 , 包括 Kosmix ( 沃尔玛 实验 室 前 身 ) Small Society、 


. .请 晤 才 


Mh 
省 
量 
到 
精 
准 


3 | Ee .天 书包 


两 医 旦 另 泊 于 . . 漠 获 半 


| 桔 克 衬 朵 漠 交 半 .于 省 ”者 


Set Direction、OneRiot、Social Calenda、Grabble 等 多 家 中 小 型 创业 公司 ， 这 些 创业 
公司 要 么 精 于 数据 挖掘 和 各 种 算法 ， 要 么 在 移动 社交 领域 有 其 专长 ， 由 此 可 见 沃尔玛 进 
军 移动 互联 网 和 挖掘 大 数据 的 决心 。 

【 案例 解析 】}， 从 沃尔玛 投入 巨 资 开发 大 数据 工具 并 推动 大 数据 技术 发 展 的 案例 中 ， 
笔者 发 现 对 大 数据 最 热心 的 企业 不 是 IT 厂商 ， 而 是 能 直接 从 大 数据 中 获 益 的 传统 企业 ， 
他 们 已 经 迫不及待 ， 甚 至 跑 到 了 厂商 的 前 面 。 

线 下 零售 的 海量 数据 一 旦 可 以 整合 ， 必 将 极 大 改变 现 有 商业 模式 。 零 售 巨头 沃尔玛 
正在 变革 其 电子 商务 模式 ， 而 大 数据 是 这 次 变革 的 动因 。 如 今 ， 沃 尔 玛 在 大 数据 上 的 投 
资 已 经 开始 产生 回报 。 相 信 在 沃尔玛 的 带领 下 ， 传 统 行业 也 会 慢 慢 意识 到 大 数据 的 重要 
性 ， 加 速 步 入 大 数据 时 代 。 


3.3.3 【案例 】Clustrix 挖掘 整合 海量 数据 


Clustrix 公司 创建 于 2005 年 ， Clustrix 总 部 设 在 美国 旧金山 , 研发 中 心 设 在 西雅图 。 
为 打开 欧洲 市 场 , 公司 计划 将 总 部 迁 至 荷兰 的 阿姆斯特丹 ,还 在 印度 设立 了 办 公 室 。2010 
年 ，Clustrix 推出 了 一 个 可 高 度 扩容 的 伸缩 式 数据 库 解决 方案 Sierra， 其 提供 了 和 SQL 
数据 库 相 似 的 功能 ， 同 时 还 能 对 数据 存储 进行 无 限制 扩展 。 

Clustrix Sierra 被 业内 称 之 为 云 计算 时 代 的 MySQL, 它 可 以 帮助 现在 要 处 理 海量 数 
据 的 公司 更 快 地 找到 数据 并 解决 日 益 增长 的 数据 扩容 等 问题 。Clustrix Sierra 可 以 为 
SQL 数据 库 提供 专利 数据 应 用 方法 ， 帮 助人 们 处 理 大 量 的 数据 ， 使 SQL 数据 库 无 限 扩 
容 成 为 可 能 。 

【 案例 解析 }， 除了 传统 的 大 企业 已 经 开始 进入 大 数据 领域 之 外 ， 还 有 不 少 的 创业 
企业 也 意识 到 了 大 数据 带 来 的 商机 , 纷纷 推出 自己 的 产品 , 以 期 抓 住 大 数据 时 代 的 机 遇 ， 
Clustrix 便 是 其 中 之 一 。 

笔者 在 前 面 的 章节 已 经 介绍 过 ， 大 数据 的 容量 往往 是 PB 级 别 ， 甚 至 有 些 用 户 的 数 
据 量 开 始 达到 EB 级 别 ， 这 要 求 未 来 的 存储 系统 能 够 具备 容量 大 、 易 扩展 的 特点 。 对 海 
量 的 、 无 意义 的 “ 非 结构 化 数据 ”进行 挖掘 提取 ， 整 合成 结构 化 数据 ， 并 使 之 有 意义 或 
创造 价值 ， 这 是 很 多 大 数据 公司 的 根本 愿望 。 而 完成 这 些 任务 有 一 个 前 提 ， 必 须 构 架 一 
个 大 数据 分 析 平 台 ， 并 利用 该 平台 从 海量 数据 中 找到 你 需要 的 那 部 分 ， 这 就 是 创业 公司 
Clustrix 正在 做 的 。 


3.3.4 【案例 】 长 虹 联 手 1BM 掘 金 大 数据 


2013 年 9 月 16 日 , IBM 与 长 虹 集团 正式 发 布 “绵阳 IBM 大 数据 分 析 竞 争 力 中 心 "。 
据悉 ， 该 中 心 将 以 大 数据 分 析 和 科学 管理 推动 长 虹 集团 智能 战略 实施 和 自身 转型 发 展 ， 
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从 而 实现 绵阳 市 智慧 城市 的 落地 。 

早 在 1999 年 ， 长 虹 就 成 功 使 用 ERP 系统 对 集团 进行 系统 化 管理 。 在 家 电 领 域 , 长 
虹 是 最 早 使 用 ERP 系统 进行 管理 的 企业 。ERP 系统 已 经 成 为 了 长 虹 信息 化 的 DNA, 也 
是 长 虹 现 阶段 发 展 大 数据 战略 的 关键 基础 。 

2008 年 ,长 虹 集 团 成 立 了 虹 信 公司 , 开始 对 外 输出 软件 业务 , 让 更 多 企业 能 使 用 到 
长 虹 信 息 化 的 成 果 。 

2012 年 ， 长 虹 虹 信 公 司 的 收入 达到 了 2.5 亿 元 ,为 中 国 西南 片区 的 酒 类 行业 、 巴 斯 
夫 、 中 海 油 、 云 天 化 等 提供 了 系统 的 专项 服务 。 

对 于 长 虹 来 说 ， 大 数据 服务 并 不 是 新 起 楼 阁 ， 随 着 长 虹 家 庭 互联 网 技术 的 成 熟 与 整 
套 产品 的 落地 ， 云 计算 、 大 数据 服务 这 些 新 兴业 务 将 成 为 公司 新 的 增长 领域 。 而 围绕 大 
数据 商业 模式 创新 的 长 虹 已 积极 展开 多 项 相关 技术 合作 开发 ， 包 括 与 中 科 院 软件 所 进行 
大 数据 的 数据 挖掘 项 目 合作 ， 与 中 科大 进行 数据 存储 、 图 像 识别 、 算 法 、 云 服务 平台 关 
键 技术 等 方面 的 合作 ， 与 西安 交大 共同 研发 人 脸 识 别 、 手 势 识别 等 技术 。 

例如 ， 中 国 首 款 电视 操作 系统 轩辕 TVOS、 全 球 首创 的 电视 语音 浏览 器 、 超 高 清 数 
字 电 视 系统 等 ， 这 些 软 件 的 研发 为 长 虹 带 来 一 个 更 宽阔 的 视野 ， 从 单一 智能 终端 走向 多 
个 智能 终端 的 连接 、 交 互 、 协 同 ， 这 是 对 现 有 智能 终端 形态 的 一 次 大 的 颠覆 。 

在 大 数据 智能 时 代 ， 长 虹 芯 片 将 是 长 虹 智能 产品 的 “大 脑 "， 而 软件 ( 操作 系统 ) 
将 是 “思想 "， 二 者 缺 一 不 可 。 装 备 了 长 虹 智能 芯片 和 软件 的 第 三 代 智能 电视 可 以 产生 
很 多 有 趣 的 应 用 场景 , 例如 电视 节目 向 不 同 终端 推送 ， 电 视 控制 调节 冰箱 、 空 调 的 状态 ， 
以 及 基于 共同 的 内 容 产 生 的 社交 圈子 等 。 

【 案例 解析 】] 在 本 案例 中 ， 处 于 大 数据 时 代 的 长 虹 ， 无 论 是 在 硬件 还 是 软件 方面 ， 
都 占据 着 相当 有 利 的 优势 ， 同 时 更 具备 了 各 软件 之 间 的 融合 以 及 硬件 与 软件 间 的 融合 ， 
是 最 有 能 力 把 软件 和 硬件 优势 进行 有 效 、 完 美 整合 的 企业 。 

大 数据 对 于 长 虹 争 夺 家 庭 互 联网 入 口 的 意义 在 于 : 它 能 使 长 虹 的 智能 电视 更 “ 懂 ” 
用 户 ， 它 能 帮助 用 户 实现 这 样 一 个 梦想 ,“" 当 你 坐 在 沙发 上 ， 电 视 机 就 会 自动 打开 ， 并 
且 调 到 你 最 喜欢 看 的 频道 "。 


3.3.5 【案例 】LSI 积极 创新 数据 中 心 变革 


LSI 公司 ( LSI Corporation ) 是 一 家 总 部 位 于 加 利 福 尼 亚 州 米尔 皮 塔 斯 ( Milpitas ) 
的 半导体 和 软件 领先 供应 商 ， 其 为 加 速 数据 存储 中 心 与 移动 网 络 性 能 提供 了 许多 领先 的 
解决 方案 。 
近日 ，LSI 对 其 数据 中 心 进行 了 以 下 两 大 创新 : 
> 为 了 解决 闪存 错误 率 高 的 现象 ，LSI 创新 了 新 技术 LSI SHIELD。 这 是 一 种 高 级 的 
纠 错 方 法 , 即便 同时 使 用 出 错 率 较 高 的 廉价 闪存 存储 器 也 能 实现 企业 级 的 SSD 耐 
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久 度 和 数据 完整 性 。 

> ”针对 典型 数据 库 应 用 ， 通 过 LSI DVC ( DuraWrite Virtual Capacity， 一 种 全 新 的 
数据 压缩 技术 ) 功能 ， 其 规划 出 的 虚拟 容量 可 以 达到 原 物理 容量 的 三 倍 。 可 以 理 
解 为 新 增 的 虚拟 容量 可 以 显著 降低 每 GB 的 用 户 存储 成 本 。 

通过 对 数据 的 采集 、 存 储 和 分 析 三 个 领域 的 深入 研究 ，LSI 不 断 解决 用 户 在 大 数据 
方面 的 技术 难点 。 

【 案例 解析 ]， 不 可 否认 我 们 已 经 身 处 大 数据 洪流 中 ， 无 时 无 刻 地 体验 着 大 数据 带 
来 的 价值 。 面 对 大 数据 洪流 ,数据 中 心 的 变革 已 经 迫在眉睫 ,数据 中 心 的 基石 IT 基础 架 
构 也 需要 转变 。 

面 对 大 数据 “多 元 、 高 速 、 海 量 ” 三 个 特点 ， 以 及 未 来 基础 设施 足够 的 规模 及 经 济 
性 ， 这 些 因素 推动 移动 计算 的 架构 向 数据 流 架 构 的 转换 。 为 了 顺应 这 种 变化 ， 本 案例 中 
的 LSI 必须 有 智能 的 芯片 解决 方案 ,例如 闪存 、 可 共享 的 DAS 架构 以 及 异 构 的 多 核 处 
理 器 ， 为 迈进 全 新 的 数据 中 心 时 代 做 好 全 面 的 准备 。 
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掌握 : 数据 管 
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学 前 提示 


在 大 数据 的 带动 下 ,企业 对 于 数据 分 析 与 检索 软件 ， 以 及 企业 数据 管理 软件 的 需求 
会 逐渐 增 温 ， 并 需要 专门 设计 的 硬件 和 软件 工具 来 处 理 这 些 大 数据 。 本 章 主要 介绍 大 
数据 管理 系统 、 数 据 挖 气 技 术 和 流程 ， 以 及 相应 的 应 用 案例 。 


要 点 展示 
< 管理 数据 ， 解 析 开 源 框架 Hadoop 


< ”挖掘 数据 ， 大 数据 如 何 去 粗 存 精 
< 大 数据 管理 与 挖掘 应 用 案例 
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4.1 管理 数据 ， 解 析 开 源 框 架 Hadoop 


Hadoop 是 一 种 分 析 技术 ， 也 称 “大 数据 ”技术 ， 其 可 快速 收集 、 传 播 和 分 析 海 量 
数据 。 目前, 该 技术 已 被 广泛 用 于 Google、Yahoo、Facebook、eBay、Linkedln、Zynga 
等 网 络 服务 。 


4.1.1 Hadoop 的 主要 特点 


Hadoop 是 一 个 由 Apache 基金 会 开发 的 分 布 式 系统 基础 架构 ， 用 户 可 以 在 不 了 解 
分 布 式 底层 细节 的 情况 下 ， 使 用 它 来 开发 分 布 式 程序 ， 并 充分 利用 集群 的 威力 进行 高 速 
运算 和 存储 。 简 而 言 之 ，Hadoop 就 是 一 个 可 以 更 容易 开发 和 运行 处 理 大 规模 数据 的 软 
件 平台 。 
Hadoop 的 主要 特点 如 下 : 
> “可靠 性 ( Reliable )。Hadoop 能 自动 地 维护 数据 的 多 份 备份 ， 并 且 在 任务 失败 后 
能 自动 地 重新 部 署 ( redeploy ) 计算 任务 。 
> 扩容 能 力 ( Scalable )。Hadoop 能 可 靠 地 ( reliably ) 存储 和 处 理 千 浪 字 节 ( PB ) 
数据 。 
> 高 效率 ( Efficient )。 通 过 分 发 数据 ，Hadoop 可 以 在 数据 所 在 的 节点 上 并 行 地 
( parallel ) 处 理 它们 ， 这 使 得 处 理 非常 快速 。 
> 成 本 低 ( Economical )。 可 以 通过 普通 机 器 组 成 的 服务 器 群 来 分 发 以 及 处 理 数据 。 
另外 ， 这 些 服务 器 群 总 计 可 达 数 千 个 节点 。 
专家 提醒 
Hadoop Distributed File System， 简 称 HDFS， 是 一 个 分 布 式 文件 系统 。HDFS 有 着 高 容 
错 性 (fault-tolerent ) 的 特点 ， 并 且 设 计 用 来 部 署 在 低廉 的 (1low-cost ) 硬件 上 。 而 且 它 提供 
高 传输 率 (high throughput ) 来 访问 应 用 程序 的 数据 , 适合 那些 有 着 超大 数据 集 ( large data set ) 
的 应 用 程序 。HDFS 放宽 了 (relax ) POSIX 的 要 求 (requirements ) ， 这 样 可 以 流 的 形式 访问 
(streaming access ) 文件 系统 中 的 数据 。 


4.1.2 Hadoop 的 发 展 历史 


Hadoop 的 源头 是 Apache Nutch, 该 项 目 始 于 2002 年 , 是 Apache Lucene 的 子 项 
目 之 一 。Lucene 是 一 个 功能 全 面 的 文本 索引 和 查询 库 , 开发 者 可 以 使 用 Lucene 引擎 方 
便 地 在 文档 上 添加 搜索 功能 。 例 如 ， 桌 面 搜索 、 企 业 搜 索 以 及 许多 领域 特定 的 搜索 引擎 


使 用 的 都 是 Lucene。 

Lucene、Nutch 和 Hadoop 这 3 个 项 目 都 是 由 Doug Cutting 所 创立 的 ， 每 个 项 目 
在 逻辑 上 都 是 前 一 个 项 目的 演进 。Doug Cutting 起 初 的 目标 是 从 头 开始 构建 一 个 网 络 搜 
索引 擎 ， 这 样 不 但 要 编写 一 个 复杂 的 、 能 够 抓 取 和 索引 网 站 的 软件 ， 还 需要 面临 没有 专 
有 运行 团队 支持 运行 它 的 挑战 ， 因 为 它 有 很 多 的 独立 部 件 。Doug Cutting 意识 到 ， 他 们 
的 架构 将 无 法 扩展 到 拥有 数 十 亿 网 页 的 网 络 。 

在 2004 年 左右 ，Google 发 表 了 两 篇 论文 来 论述 Google 文件 系统 ( GFS ) 和 
MapReduce 框架 。Google 声称 使 用 了 这 两 项 技术 来 扩展 自己 的 搜索 系统 。 具 体 而 言 ， 
GFS 会 省 掉 管理 所 花 的 时 间 ， 如 管理 存储 节点 。 

Doug Cutting 立即 看 到 了 这 些 技术 可 以 适用 于 Nutch ， 接 着 他 的 团队 实现 了 一 个 新 
的 框架 ,将 Nutch 移植 上 去 ， 即 Nutch 的 分 布 式 文件 系统 ( NDFS )。 这 种 新 的 技术 马上 
提升 了 Nutch 的 可 扩展 性 ， 它 开始 能 够 处 理 几 亿 个 网 页 ， 并 能 够 运行 在 几 十 个 节点 的 集 
群 上 。Doug Cutting 认识 到 设计 一 个 专门 的 项 目 可 以 充实 两 种 网 络 扩展 所 需 的 技术 ， 于 
是 就 有 了 Hadoop。 

2006 年 1 月 ，Doug Cutting 加 入 雅虎 ( Yahoo )， 雅 虎 为 他 提供 一 个 专门 的 团队 和 
资源 ,准备 将 Hadoop 发 展 成 一 个 可 在 网 络 上 运行 的 系统 。 两 年 后 ,Hadoop 成 为 Apache 
的 项 级 项 目 。 

2008 年 2 月 ， 雅 虎 宣布 其 索引 网 页 的 生产 系统 采用 了 在 10000 多 个 核 的 Linux 集 
群 上 运行 的 Hadoop。 此 时 ,Hadoop 才 真 正 达 到 了 万 维 网 的 规模 。 通 过 这 次 机 会 ,Hadoop 
成 功 地 被 雅虎 之 外 的 很 多 公司 应 用 ， 如 Lastfm、Facebook 和 《纽约 时 报 》。 

Hadoop 这 个 名 字 不 是 一 个 缩写 ， 它 是 一 个 虚构 的 名 字 。 为 软件 项 目 命名 时 ，Doug 
Cutting 似乎 总 会 得 到 家 人 的 启发 。Lucene 是 他 妻子 的 中 间 名 ， 也 是 她 外 祖母 的 名 字 。 
他 的 儿子 在 嘱 呀 学 语 时 ， 总 把 所 有 用 于 吃饭 的 词 叫 成 Nutch， 后 来 儿子 又 把 一 个 黄色 大 
象 毛 绒 玩 具 叫 做 Hadoop。Doug Cutting 说 :“ 我 的 命名 标准 就 是 简短 , 容易 发 音 和 拼写 ， 
没有 太 多 的 意义 ， 并 且 不 会 被 用 于 别处 。 所 以 ， 我 尝试 生活 中 以 前 没有 人 用 过 的 各 种 词 
汇 ， 而 孩子 们 很 擅长 创造 单词 。 


4.1.3 ”Hadoop 的 主要 用 途 


得 益 于 市 场 的 宣传 ， 企 业 用 户 对 于 “大 数据 ”这 一 概念 的 接受 程度 越 来 越 高 ， 作 为 
一 个 较为 廉价 并 且 开 源 的 大 数据 解决 方案 一 一 Hadoop， 也 越 来 越 受 到 用 户 的 关注 。 

那么 ， 选 用 Hadoop 系统 能 够 为 我 们 带 来 什么 作用 呢 ? 

首先 ，Hadoop 的 方便 和 简单 让 其 在 编写 和 运行 大 型 分 布 式 程序 方面 占 尽 优势 。 
Hadoop 采用 分 布 式 存储 方式 来 提高 数据 读 写 速度 和 扩大 存储 容量 ; 采用 MapReduce 
整合 分 布 式 文件 系统 上 的 数据 ， 保 证 高 速 分 析 处 理 数 据 ; 与 此 同时 还 采用 存储 宛 余 数据 
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来 保证 数据 的 安全 性 。 
即使 是 在 校 的 大 学 生 也 可 以 快速 、 廉 价 地 建立 自己 的 Hadoop 集群 。 另 一 方面 ， 它 
的 健壮 性 和 可 扩展 性 又 使 它 胜任 雅虎 和 Facebook 最 严 苛 的 工作 。 这 些 特 性 使 Hadoop 
在 学 术 界 和 工业 界 都 大 受 欢 迎 。 如 图 4-1 所 示 为 Hadoop 的 主要 用 途 。 
四 数据 挖掘 改善 BI 
看 降低 数据 分 析 成 本 
则 日 志 分 析 、Web 搜索 
重 广 告 优化 
生 改 善 科学 研究 
可 细 分 市 场 的 客户 分 析 
章 半 结构 化 / 非 结 构 化 数据 处 理 
nuELT 
站 对 完整 数据 集 进行 分 析 
下 其 他 


图 4-1 Hadoop 的 主要 用 途 
专家 提醒 
Hadoop 中 的 HDFS 具有 高 容错 性 ， 并 且 是 基于 Java 语言 开发 的 ， 这 使 得 Hadoop 可 以 
部 署 在 低廉 的 计算 机 集群 中 ， 同 时 不 限于 某 个 操作 系统 。Hadoop 中 HDFS 的 数据 管理 能 力 、 
MapReduce 处 理 任务 时 的 高 效率 以 及 它 的 开源 特性 ,使 其 在 同类 分 布 式 系统 中 大 放 异 彩 ,并 
在 众多 行业 和 科研 领域 中 被 广泛 应 用 。 


4.1.4 Hadoop 的 项 目 结构 


近 几 年 分 布 式 系统 的 发 展 越 来 越 快 ,而 Hadoop 整套 项 目 也 起 到 了 推波助澜 的 作用 ， 
而 且 Hadoop 已 经 发 展 成 为 包含 很 多 项 目的 集合 。 

Hadoop 项 目 包 括 3 部 分 : Hadoop Distributed File System ( HDFS, 分 布 式 文件 系 
统 )、Hadoop MapReduce 模型 和 Hadoop 


Common。 虽然 其 核心 内 容 是 MapReduce 和 


Hadoop 分 布 式 文件 系统 ， 但 与 Hadoop 相关 


的 Common、Avro、Chukwa、Hive、HBase [ors | ZooKeeper 


等 项 目 也 是 不 可 或 缺 的 。 它们 提供 了 互补 性 服 
务 或 在 核心 层 上 提供 了 更 高 层 的 服务 。 (om Ge 
Hadoop 的 项 目 结构 如 图 4-2 所 示 。 
下 面 对 Hadoop 的 各 个 关联 项 目 进行 更 图 4-2 Hadoop 的 项 目 结构 
详细 的 介绍 。 
> ”Pig: 一 种 编程 语言 ， 它 简化 了 Hadoop 常见 的 工作 任务 。Pig 可 加 载 数据 、 表 达 


转换 数据 以 及 存储 最 终结 果 。 

Chukwa: Chukwa 是 一 个 开源 的 用 于 监控 大 型 分 布 式 系统 的 数据 收集 系统 ， 其 可 
以 用 于 监控 大 规模 ( 2000 + 以 上 的 节点 ， 每 天 产生 数据 量 在 TB 级 别 ) Hadoop 
集群 的 整体 运行 情况 并 对 它们 的 日 志 进行 分 析 。Chukwa 是 构建 在 Hadoop 的 
HDFS 和 MapReduce 框架 之 上 的 ,继承 了 Hadoop 的 可 伸缩 性 和 和 鲁 棒 性 -Chukwa 
还 包含 了 一 个 强大 和 灵活 的 工具 集 ， 可 用 于 展示 、 监 控 和 分 析 已 收集 的 数据 。 
Hive: Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 文件 映射 
为 一 张 数据 库 表 ， 并 提供 简单 的 SQL 查询 功能 ， 其 可 以 将 SQL 语句 转换 为 Map 
Reduce 任务 进行 运行 。Hive 的 优点 是 学 习 成 本 低 ， 可 以 通过 类 SQL 语句 快速 实 
现 简单 的 MapReduce 统计 , 不 必 开 发 专门 的 MapReduce 应 用 , 十 分 适合 数据 仓 
库 的 统计 ”分 析 。 

HBase: HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 ， 类 似 Google BigTable 
的 分 布 式 NoSQL 列 数 据 库 。HBase 不 同 于 一 般 的 关系 数据 库 ， 它 是 一 个 适合 于 
非 结构 化 数据 存储 的 数据 库 。 

MapReduce: MapReduce 是 一 种 编程 模型 ， 用 于 大 规模 数据 集 ( 大 于 1TB ) 的 
并 行 运算 。MapReduce 极 大 地 方便 了 编程 人 员 的 工作 , 即使 在 不 了 解 分 布 式 并 行 
编程 的 情况 下 ， 也 可 以 将 自己 的 程序 运行 在 分 布 式 系统 上 。MapReduce 在 执行 时 
先 指定 一 个 Map ( 映射 ) 函数 ， 其 把 输入 键 值 对 映射 成 一 组 新 的 键 值 对 ， 经 过 一 
定 处 理 后 交 给 Reduce ( 化 简 ), Reduce 对 相同 key 下 的 所 有 value 进行 处 理 后 再 
输出 键 值 对 作为 最 终 的 结果 。 

HDFS: HDFS 是 一 个 分 布 式 文件 系统 。HDFS 原本 是 开源 的 Apache 项 目 Nutch 
的 基础 结构 ， 最 后 它 却 成 为 了 Hadoop 基础 架构 之 一 。HDFS 放宽 了 对 可 移植 操 
作 系 统 接口 ( Portable Operating System Interface，POSIX ) 的 要 求 ， 这 样 可 以 
实现 以 流 的 形式 访问 文件 系统 中 的 数据 。 

ZooKeeper: ZooKeeper 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协 调 系统 ， 提 供 的 功 
能 有 配置 维护 、 名 字 服 务 、 分 布 式 同步 、 组 服务 等 。ZooKeeper 的 目标 就 是 封装 
好 复杂 易 出 错 的 关键 服务 ， 将 简单 易 用 的 接口 和 性 能 高 效 、 功 能 稳定 的 系统 提供 
给 用 户 ， 提 供 类 似 Google Chubby ( 分 布 式 锁 服务 ) 的 功能 。 

Core ( 酷 害 ): 酷 害 是 一 款 由 英特尔 设计 的 节能 新 型 微 架 构 ， 设 计 的 出 发 点 是 提供 
卓然 出 众 的 性 能 和 能 效 ， 提 高 每 瓦特 性 能 ， 也 就 是 所 谓 的 能 效 比 。 

Avro: Avro 是 用 于 数据 序列 化 的 系统 ， 其 提供 了 丰富 的 数据 结构 类 型 、 快 速 可 压 
缩 的 二 进 制 数据 格式 、 存 储 持久 性 数据 的 文件 集 、 远 程 调用 RPC 的 功能 和 简单 的 
动态 语言 集成 功能 。 其 中 代码 生成 器 既 不 需要 读 写 文件 数据 ， 也 不 需要 使 用 或 实 
现 RPC 协议 ， 它 只 是 一 个 可 选 的 对 静态 类 型 语言 的 实现 。 
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专家 提醒 
Common 是 为 Hadoop 其 他 子 项 目 提供 支持 的 常用 工具 ， 它 主要 包括 FileSystem、RPC 
和 囊 行 化 库 。 它们 为 在 廉价 硬件 上 搭建 云 计算 环境 提供 基本 的 服务 ， 并 且 会 为 运行 在 该 平台 
上 的 软件 开发 提供 所 需 的 API。 在 Hadoop 0.20 及 以 前 的 版 本 中 ， 包 含 HDFS、MapReduce 
和 其 他 项 目 公共 内 容 ， 从 0.21 开始 HDFS 和 MapReduce 被 分 离 为 独立 的 子 项 目 ， 其 余 内 容 
为 Hadoop Common。 


4.1.5 Hadoop 的 体系 结构 


Hadoop 的 整个 体系 结构 主要 是 通过 HDFS 来 实现 对 分 布 式 存储 的 底层 支持 ， 并 且 
通过 MapReduce 来 实现 对 分 布 式 并 行 任务 处 理 的 程序 支持 。 可 以 说 ，HDFS 和 
MapReduce 是 Hadoop 的 两 大 核心 体系 结构 。 

1. HDFS 的 体系 结构 

HDFS 是 一 个 主 从 结构 ( Master/Slave ) 模 型 ,一 个 HDFS 集群 是 由 一 个 NameNode 
和 若干 个 DataNode 组 成 的 。 如 图 4-3 所 示 为 HDFS 的 体系 结构 。 


图 4-3 HDFS 的 体系 结构 


> NameNode ( 名 称 节点 )， NameNode 作为 主 服务 器 ， 管 理 文件 系统 的 命名 空间 
和 客户 端 对 文件 的 访问 操作 。 

> ”DataNode ( 数据 节点 ): 集群 中 的 DataNode 管理 存储 的 数据 。HDFS 允许 用 户 
以 文件 的 形式 存储 数据 ， 从 内 部 来 看 ， 文 件 被 分 成 若干 个 数据 块 ， 而 且 这 若干 个 
数据 块 存放 在 一 组 DataNode 上 。 

NameNode 执行 文件 系统 的 命名 空间 操作 ， 例 如， 打开、 关闭 、 重 命名 文件 或 目录 


等 ， 它 也 负责 数据 块 到 具体 DataNode 的 映射 。DataNode 负责 处 理 文件 系统 客户 端的 
文件 读 写 请 求 ， 并 在 NameNode 的 统一 调度 下 进行 数据 块 的 创建 、 删 除 和 复制 工作 。 
2.，MapReduce 的 体系 结构 

MapReduce 是 一 种 并 行 编程 模式 ， 这 种 模式 使 得 软件 开发 者 可 以 轻松 地 编写 出 分 
布 式 并 行程 序 。 MapReduce 框架 是 由 一 个 单独 运行 在 主 节 点 上 的 Job Tracker 和 运行 在 
每 个 集群 从 节点 上 的 Task Tracker 共同 组 成 的 。 当 一 个 Job 被 提交 时 ，Job Tracker 接 
收 到 提交 作业 和 其 配置 信息 之 后 ， 就 会 将 配置 信息 等 分 发 给 从 节点 ， 同 时 调度 任务 并 监 
控 Task Tracker 的 执行 。 

很 多 人 也 许 看 不 明白 ， 下 面 笔者 举 个 简单 的 例子 来 说 明 MapReduce 结构 的 作用 。 
假设 你 是 幼儿 园 的 老师 ， 带 着 一 群 小 朋友 做 一 个 加 减 乘除 的 游戏 ， 你 给 每 一 个 小 朋友 出 
一 道 题目 ， 然 后 让 他 算 好 后 给 你 报告 答案 ， 你 再 给 他 出 一 道 题目 ， 周 而 复 始 如 此 做 。 如 
果 只 有 十 几 个 小 朋友 在 算 ， 相 信 你 可 以 轻松 应 付 ; 如 果 上 了 一 百 个 小 朋友 ， 估 计 每 个 人 
都 会 争 着 表现 ， 叫 喷 着 让 你 出 题 ， 这 时 你 肯定 会 感到 不 堪 重 负 。 

面 对 这 样 的 场景 ， 我 们 通常 的 经 验 是 “再 搜 的 算法 也 难以 抵挡 海量 的 数据 或 任务 "。 
因此 ， 应 对 方法 主要 还 是 增加 资源 ， 其 次 才 是 优化 算法 ， 而 且 两 者 可 并 行 。 即 小 朋友 在 
增加 的 同时 ， 我 们 也 相应 地 增加 老师 的 数量 ， 通 过 这 样 的 途径 来 缓解 每 个 老师 的 压力 。 

与 这 种 场景 类 似 , MapReduce 结构 也 面临 类 似 的 问题 。 越 来 越 多 的 Task Tracker( 小 
朋友 ) 会 让 有 限 的 Job Tracker ( 老师 ) 很 有 压力 ， 以 至 于 Task Tracker 有 很 多 时 ， 
Job Tracker 不 能 及 时 响应 请 求 ， 很 多 Task Tracker 就 让 资源 空闲 着 ， 等 待 Job Tracker 
的 response ( 响应 )。 因 此 ， 如 何 优化 MapReduce 结构 ， 也 是 各 个 大 数据 分 析 平 台 急需 
解决 的 难题 。 

总 之 ,HDFS 和 MapReduce 共同 组 成 了 Hadoop 分 布 式 系统 体系 结构 的 核心 .HDFS 
在 集群 上 实现 了 分 布 式 文件 系统 ，MapReduce 在 集群 上 实现 了 分 布 式 计算 和 任务 处 理 。 
HDFS 在 MapReduce 任务 处 理 过 程 中 提供 了 对 文件 操作 和 存储 等 的 支持 , MapReduce 
在 HDFS 的 基础 上 实现 了 任务 的 分 发 、 跟 踪 、 执行 等 工作 , 并 收集 结果 , 二 者 相互 作用 ， 
完成 了 Hadoop 分 布 式 集群 的 主要 任务 。 


4.2 和 桶 查 数 据 ， 大 数据 如 何 去 粗 存 业 


数据 挖掘 ( Data Mining ) 是 数据 库 知 识 发 现 ( Knowledge-Discovery in Databases， 
KDD ) 中 的 一 个 重要 步骤 。 数 据 挖掘 一 般 是 指 从 大 量 的 数据 中 通过 算法 搜索 隐藏 于 其 中 
信息 的 过 程 。 数 据 挖掘 是 通过 分 析 每 个 数据 ， 从 大 量 数据 中 寻找 其 规律 的 技术 ， 其 一 般 
流程 如 图 4-4 所 示 。 


. . 施 噬 才 


从 
海 
量 
到 
改 


四 | El 


两 喜 冯 疝 曾 全 . . 测 噬 才 


4 
Ww 
攻 图 4-4 ”数据 挖掘 的 一 般 流程 
4.2.1 准备 数据 
管 
当 数据 准备 是 指 从 相关 的 数据 源 中 选取 所 需 的 数据 并 整合 成 用 于 数据 挖掘 的 数据 集 ， 
指 如 表 4-1 所 示 。 
一 表 4-1 “准备 数据 的 流程 
84 准备 步骤 具体 内 容 
9 ， “| 搜索 所 有 与 业务 对 象 有 关 的 内 部 和 外 部 数据 信息 ， 并 从 中 选择 出 用 
第 “ 步 : 选择 数据 | 于 数据 挖掘 的 数据 
间 二 二 站 三 世 obese 
第 三 步 ， 转 换 数 据 。 | 将 数据 转换 成 分 析 模 型 ， 这 个 分 析 模 型 是 针对 控 气 算法 建立 的 。 建 
2 立 一 个 真正 适合 挖掘 算法 的 分 析 模型 是 数据 挖 气 成 功 的 关键 
4.2.2 ”挖掘 过 程 


数据 的 挖掘 过 程 是 指 对 所 得 到 的 经 过 转换 的 数据 进行 挖掘 ,其 一 般 流程 如 表 4-2 所 示 。 


表 4-2 挖掘 数据 的 流程 


和 具体 内 容 

第 一步， 建 模 。 | 在 这 个 阶段 ， 可 以 选择 和 使 用 不 同 的 模型 技术 ， 模 型 参数 被 调整 到 最 信 

CModcling) | 的 数值。 一 般 情 况 下 ， 有 些 技术 可 以 解决 一 类 相同 的 数据 挖 所 问题 。 有 
些 技术 在 数据 形成 上 有 特殊 要 求 ， 因 此 需要 经 常 跳 回 到 数据 准备 阶段 


续 表 


挖掘 步 又 具体 内 容 大 
到 项 目的 这 个 阶段 ， 你 已 经 从 数据 分 析 的 角度 建立 了 一 个 高 质量 的 模型 。 燥 

第 一 步 :评估 在 最 后 部 署 模型 之 前 ， 重 要 的 事情 是 彻底 地 评估 模型 ， 检 查 构造 模型 的 所 

ia 步 又， 确保 模型 可 以 完成 业务 目标 。 这 个 阶段 的 关键 是 确定 是 否 有 重要 


业务 问题 没有 被 充分 地 考虑 。 在 这 个 阶段 结束 后 ， 必 须 达成 一 个 使 用 数 
据 挖掘 结果 的 决定 

通常 ， 模 型 的 创建 不 是 项 目的 结束 。 模 型 的 作用 是 从 数据 中 找到 知识 ， 获 
第 三 步 : 部 署 得 的 知识 需要 重新 组 织 和 展现 ， 便 于 用 户 使 用 。 根 据 需 求 ， 这 个 阶段 可 以 
(Deployment) | 产生 简单 的 报告 ， 或 是 实现 一 个 比较 复杂 的 、 可 重复 的 数据 挖掘 过 程 。 在 
很 多 案例 中 ， 这 个 阶段 是 由 客户 而 不 是 数据 分 析 人 员 承 担 部 署 的 工作 
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专家 提醒 
在 客户 生命 周期 的 过 程 中 ,各 个 不 同 的 阶段 包含 了 许多 重要 的 事件 。 数据 挖掘 技术 可 以 
应 用 于 客户 生命 周期 的 各 个 阶段 以 提高 企业 客户 关系 管理 能 力 ， 包 括 争取 新 的 客户 ， 让 已 有 
的 客户 创造 更 多 的 利润 ， 保 持 住 有 价值 的 客户 等 。 


4.2.3 ”结果 表示 


结果 表示 是 指 根据 客户 的 决策 要 求 ， 对 挖掘 出 的 信息 进行 分 析 ， 抽 取出 最 有 价值 的 
部 分 ， 通 过 决策 支持 工具 提交 给 决策 者 。 结 果 表 示 的 一 般 流 程 如 表 4-3 所 示 。 
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表 4-3 结果 表示 的 流程 


挖掘 步骤 具体 内 容 
第 一 步 : 解释 并 评估 结果 ， 其 使 用 的 分 析 方 法 一 般 应 视 数据 挖掘 操作 而 定 ， 通常 会 用 
结果 分 析 到 可 视 化 技术 ， 如 图 4-5 所 示 
第 二 步 : :D 
】 和 知识 言 息 系 统 的 组 织 结 
知识 的 同化 将 分 析 所 得 到 的 知识 集成 到 业务 信息 系统 的 组 织 结构 中 去 


在 数据 挖掘 中 发 现 的 知识 可 直接 用 于 指导 OLAP 的 分 析 处 理 , 而 OLAP 分 析 得 到 的 
新 知识 也 可 以 直接 补充 到 系统 的 知识 库 中 。 为 增强 数据 挖掘 的 效率 ， 可 以 将 粗糙 集 理论 
与 神经 网 络 、 遗 传 算法 、 模 糊 数学 、 决 策 树 等 方法 相 结合 。 一 般 情 况 下 ， 粗 糙 集 理论 用 
于 产生 确定 规则 ， 神 经 网 络 用 于 产生 非 确定 规则 ， 粗 糙 集 理论 的 使 用 提高 了 系统 的 运算 
速度 ， 同 时 神经 网 络 则 使 产生 的 规则 集 泛 化 能 力 提高 。 

大 数据 是 一 种 具有 隐藏 法 则 的 “人 造 自然 系统 "， 寻 找 大 数据 的 科学 模式 将 带 来 对 
研究 大 数据 之 美的 一 般 性 方法 的 探究 ， 尽 管 这 样 的 探索 十 分 困难 ， 但 是 如 果 我 们 找到 了 
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将 非 结构 化 、 半 结构 化 数据 转化 成 结构 化 数据 的 方法 ， 已 知 的 数据 挖掘 方法 将 成 为 大 数 
据 挖掘 的 工具 。 


| 建议 采用 图 形 | 
eh 9 由 | 水平 柱 | 线 图 | 
整体 的 一 部 分 | "| 


图 4-5 可 视 化 的 展现 
专家 提醒 


随 着 企业 信息 化 水 平 的 不 断 提高 ， 采 用 基于 数据 仓库 的 决策 支持 系统 ， 能 增强 管理 者 的 
决策 能 力 ， 获 取 更 好 的 管理 效果 和 企业 竞争 优势 。 


4.3 大 数 要 管理 与 榨 棍 应 用 案 倒 


数据 挖掘 对 企业 来 说 究竟 有 何 意义 ， 不 妨 先 看 看 以 下 几 个 事件 。 


> 


事件 1: 当 你 在 网 上 搜索 一 条 飞 往 北京 的 航班 信息 时 , 同时 看 到 网 站 上 出 现 了 北京 
宾馆 的 打折 信息 。 

事件 2: 你 正在 观赏 的 一 部 电影 , 采用 了 以 几 十 万 GB 数据 为 基础 的 计算 机 图 形 图 
像 技术 。 

事件 3: 被 经 常 光顾 的 商店 在 对 顾客 行为 进行 数据 挖掘 的 基础 上 可 获取 最 大 化 的 
利润 。 

事件 4: 用 算法 预测 人 们 购 票 需求 ， 航 空 公司 以 不 可 预知 的 方式 调整 价格 。 
事件 5: 智能 手机 的 APP 应 用 识别 到 你 的 位 置 ， 因 此 你 会 收 到 附近 餐厅 的 服务 
信息 。 


这 些 都 是 对 海量 数据 进行 挖掘 分 析 的 结果 。 笔 者 觉得 一 个 数据 库 只 要 有 几 十 万 条 以 


上 的 记录 ， 就 有 数据 挖掘 的 价值 。 本 节 主 要 介绍 大 数据 管理 与 挖掘 的 应 用 案例 ， 希 望 对 
你 有 一 定 的 启发 和 学 习 价值 。 


4.3.1 【案例 】 用 数据 挖掘 筛 查 高 危 病 人 


通常 情况 下 ， 医 生 会 通过 一 系列 检查 来 确定 人 们 的 健康 情况 。 然 而 ， 麻 省 理工 学 院 
的 研究 者 约翰 . 古 塔 格 ( John Guttag ) 和 柯 林 . 斯 塔 尔 效 ( Collin Stultz ) 创建 了 一 个 
计算 机 模型 来 分 析 心 脏 病 患者 被 弃 用 的 心电图 数据 ， 如 图 4-6 所 示 。 


.. 户 菇 二 


山 | 
省 
量 
到 
准 


四 | ER 


图 4-6 约翰 。 古 塔 格 (John Guttag) 和 柯 林 。 斯 塔 尔 兹 〈Collin Stultz) 


他 们 利用 数据 挖掘 和 机 器 学 习 的 方法 在 海量 的 数据 中 筛选 ， 发 现 心电图 中 出 现 三 类 
异常 者 一 年 内 死 于 第 二 次 心脏 病 发 作 的 几率 比 未 出 现 者 高 一 至 二 倍 。 这 种 新 方法 能 够 识 
别 出 更 多 的 、 无 法 通过 现 有 的 风险 筛 查 技术 来 探查 的 高 危 病 人 。 

【 案例 解析 }， 如 何 应 对 “大 数据 "， 是 摆 在 医院 IT 部 门面 前 的 一 个 “大 考验 "。 如 
果 处 理 不 好 ,“ 大 数据 ”就 会 成 为 “大 包 补 "、 "大 问题 ";， 反 之， 如 果 应 用 得 当 ,“ 大 数 
据 ” 则 会 为 医院 带 来 “大 价值 "。 而 这 一 切 ， 都 离 不 开 科学 地 规划 和 部 署 存储 架构 。 

当 每 个 老百姓 都 可 以 随时 管理 、 查 询 自己 的 健康 医疗 数据 时 ， 而 且 这 样 的 数据 将 不 
局 限于 体检 结果 、 就 诊 记录 , 还 可 以 衍生 到 你 的 基因 数据 , 你 的 日 常 健康 行为 监测 数据 ， 
医疗 大 数据 的 价值 才能 真正 发 挥 ， 人 类 对 自身 的 认识 也 将 上 一 个 新 的 台阶 。 


4.3.2 【案例 】 数 据 挖掘 助力 NBA 赛事 


美国 著名 的 国家 篮球 队 NBA 的 教练 ， 利 用 IBM 公司 提供 的 数据 挖掘 工具 临场 决定 
替换 队员 。 想 象 你 是 NBA 的 教练 ， 你 靠 什 么 带领 你 的 球 队 取得 胜利 呢 ? 当然 ， 最 容易 
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想到 的 是 全 场 紧 逼 、 交 叉 扯 动 和 快速 抢断 等 具体 的 战术 和 技术 。 

如 今 ， 数 据 挖掘 成 了 NBA 教练 们 的 新 式 武器 。 据 悉 ， 大 约 20 个 NBA 球 队 使 用 了 
IBM 公司 开发 的 数据 挖掘 应 用 软件 Advanced Scout 来 优化 他 们 的 战术 组 合 。 Advanced 
Scout 是 一 个 数据 分 析 工具 , 教练 可 以 用 便携 式 电 脑 在 家 里 或 在 路 上 挖掘 存储 在 NBA 中 
心 的 服务 器 上 的 数据 。 每 一 场 比赛 的 事件 都 被 统计 分 类 ， 如 得 分 、 助 攻 、 失 误 等 。 因 为 
有 时 间 标 记 ， 教 练 可 非常 容易 地 通过 搜索 NBA 比赛 的 录像 来 理解 统计 发 现 的 含义 。 

例如 ， 魔 术 队 利用 Advanced Scout 系统 分 析 显 示 : 先 发 阵 容 中 的 两 个 后 卫 安 佛 尼 * 哈 
德 卫 ( Anfernee Hardaway ) 和 伯 兰 . 绍 ( Brian Shaw ) 在 前 两 场 中 被 评 为 -17 分 ， 这 
意味 着 他 俩 在 场 上 ， 本 队 输 掉 的 分 数 比 得 到 的 分 数 多 17 分 。 然 而 ， 当 哈 德 卫 与 替补 后 
卫 达 利 尔 . 阿 姆 斯 创 ( Darrell Armstrong ) 组 合 时 ， 魔 术 队 得 分 为 +14 分 。 因 此 ， 魔 术 
队 在 下 一 场 比赛 中 特意 增加 了 阿 姆 斯 创 的 上 场 时 间 。 

结果 显而易见 ， 阿 姆 斯 创 得 了 21 分 ， 哈 德 卫 得 了 42 分 ， 魔 术 队 以 88 比 79 获胜 。 
因此 ， 魔 术 队 在 第 四 场 继 续 让 阿 姆 斯 创 先 发 ， 再 一 次 打败 了 热 队 。 在 第 五 场 比 赛 中 ， 这 
个 靠 数据 挖掘 支持 的 阵容 没 能 拖 住 热 队 ， 但 Advanced Scout 毕竟 帮助 了 魔术 队 赢 得 了 
打 满 5 场 ， 直 到 最 后 才 决 出 胜 负 的 机 会 。 

另外 ， 教 练 们 通过 Advanced Scout 系统 ， 可 以 在 对 方 球员 与 自己 的 队员 在 “ 头 碰 
头 ” 的 瞬间 分 解 双方 接触 的 动作 ， 进 而 设计 合理 的 防守 策略 。 

【 案例 解析 ]，Advanced Scout 的 开发 人 员 布 罕 德 瑞 表 示 : “教练 们 可 以 完全 没有 
统计 学 的 培训 经 历 ， 但 他 们 可 以 利用 数据 挖掘 制定 策略 "。 开 发 者 还 可 以 继续 开发 出 与 
Advanced Scout 相似 的 数据 挖掘 应 用 ， 增 加 其 功能 ， 可 以 让 教练 、 广 播 员 、 新 闻 记 者 
及 球迷 挖掘 其 他 数据 统计 。 


专家 提醒 
需要 注意 的 是 ， 所 有 电脑 系统 都 有 其 局 限 性 ,因此 你 不 要 期 望 这 样 的 数据 挖掘 可 以 帮助 
一 支 球 队 找 到 赢得 足球 世界 杯 的 策略 。 


4.3.3 【过 例 】 用 数据 挖掘 控制 鲜花 库存 


Pro Flowers 是 美国 著名 的 鲜花 在 线 预订 网 站 ， 有 四 万 多 家 连锁 花 店 提供 配送 服务 。 
其 网 站 也 制作 得 相当 精美 ， 不 同 主题 的 鲜花 图 片 非常 地 赏心悦目 ， 如 图 4-7 所 示 。 

由 于 鲜花 极 易 枯萎 ，Pro Flowers 不 得 不 均匀 地 削减 库存 ， 否 则 可 能 导致 一 种 商品 
过 快 售 馨 或 库存 鲜花 濒于 凋谢 。 

另外 ， 由 于 日 交易 量 较 高 ，Pro Flowers 的 网 站 管理 人 员 需 要 对 零售 情况 进行 大 量 
的 分 析 ， 例 如 ， 转 换 率 ， 也 就 是 多 少 页 面 浏览 量 将 导致 销售 产生 。 例 如 ， 如 果 100 人 中 
仅 有 5 人 看 到 玫瑰 时 就 会 购买 ， 而 盆景 的 转换 率 则 为 100 比 20， 那 么 不 是 页 面 设计 有 
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问题 ， 就 是 玫瑰 的 价格 有 问题 。 此 时 ，Pro Flowers 就 要 迅速 对 网 站 上 的 玫瑰 价格 进行 
调整 。 对 于 可 能 过 快 售 馨 的 商品 ，Pro Flowers 通常 不 得 不 在 网 页 中 弱化 该 商品 或 取消 
优惠 价格 ， 从 而 设法 减缓 该 商品 的 销售 。 
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图 4-7 Pro Flowers 网 站 主页 


过 去 ， 这 一 工作 通常 由 人 工 来 完成 ， 效 率 极 其 低下 。Pro Flowers 营销 副 总 裁 Chris 
d'Eon 表示 :“ 自 己 分 析 数据 是 浪费 时 间 。 我 们 需要 一 种 浏览 数据 的 方式 ， 能 够 让 我 们 即 
刻 采 取 行 动 。 

因此 ，Pro Flowers 采用 了 WebSideStory 推出 的 数据 挖掘 ASP 服务 一 一 HitBox， 
其 可 以 使 企业 的 计划 者 在 业务 高 峰 日 也 能 够 对 销售 情况 做 出 迅速 反应 。WebSideStory 
为 700 多 家 公司 提供 多 种 在 线 访 客 页 面 点 击 的 跟踪 服务 , 每 月 为 公司 分 析 超 过 300 亿 个 
网 页 。 采 用 HitBox 后 ，Pro Flowers 的 网 站 管理 人 员 可 以 借助 便于 阅读 的 可 视 化 界面 来 
了 解 销售 数据 和 转换 率 ， 节 省 了 工作 效率 。 

HitBox 是 分 析 领 域 的 新 突破 ， 它 将 WebSideStory 专业 的 、 实 时 的 数据 收集 体系 架 
构 与 挖掘 数据 的 能 力 整合 在 一 起 ， 结 果 得 到 快速 反应 的 、 精 确 到 秒 的 访问 效果 ， 使 业务 
人 员 大 幅 提 高 了 在 线 活动 的 能 力 。 

作为 一 种 完全 托管 的 on-demand 服务 ，HitBox 可 实时 收集 访问 者 或 客户 的 行为 信 
息 ， 并 通过 简便 的 Web 浏览 器 界面 提供 定制 数据 ， 这 种 服务 不 需要 软 硬 件 投资 ， 可 以 
在 数 天 内 实施 。 

【 案例 解析 ]， 对 于 商业 型 企业 来 说 ， 通 过 收集 、 加 工 和 处 理 涉及 消费 者 消费 行为 
的 大 量 信息 ， 确 定 特定 消费 群体 或 个 体 的 兴趣 、 消 费 习 惯 、 消 费 倾 向 和 消费 需求 ， 进 而 
推断 出 相应 消费 群体 或 个 体 下 一 步 的 消费 行为 ， 然 后 以 此 为 基础 ， 对 所 识别 出 来 的 消费 
群体 进行 特定 内 容 的 定向 营销 ， 这 与 传统 的 不 区 分 消费 者 对 象 特征 的 大 规模 营销 手段 相 
比 ， 大 大 节省 了 营销 成 本 ， 提 高 了 营销 效果 ， 从 而 为 企业 带 来 更 多 的 利润 。 
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4.3.4 【案例 】 挖 气 人 类 头脑 里 的 大 数据 


人 类 连接 组 项 目 ( Human Connectome Project ) 是 美国 国立 卫生 院 NIH 2009 年 开 
始 资助 的 一 个 5 年 项 目 , 不 同 的 几 个 大 学 /研究 所 分 成 两 组 进行 。 第 一 组 由 圣路易斯 华 盛 
顿 大 学 ( Washington University in Saint Louis ) 为 首 ， 预 计 投资 3000 万 美元 。 另 一 组 
哈佛 大 学 、 麻 省 总 医院 以 及 UCLA ( University of California，Los Angeles， 加 利 福 尼 
亚 大 学 洛杉矶 分 校 ) 组 成 ， 预 计 投资 850 万 美元 。 

人 类 连接 组 项 目 旨 在 通过 扫描 1200 名 健康 成 年 人 的 大 脑 ， 比 较 他 们 大 脑 各 区 域 神 
经 连接 的 不 同 以 及 如 何 由 此 导致 认 知 和 行为 方面 的 个 体 差异 ， 最 终 描绘 出 人 类 大 脑 的 所 
有 神经 连接 情况 。2012 年 12 月 21 日 出 版 的 美国 《科学 》 杂 志 将 人 类 连接 组 计划 列 为 
2013 年 六 大 值得 关注 的 科学 领域 之 一 。 

据悉 ， 人 类 连接 组 项 目 使 用 3 种 磁 共 振 造 影 观察 脑 的 结构 、 功 能 和 连接 。 根 据 圣 路 
易 斯 华盛顿 大 学 的 连接 组 项 目 办 事 处 的 信息 学 主任 丹尼尔 . 马 库 斯 ( Daniel Marcus ) 的 
预期 ， 数 据 收 集 工作 完成 之 时 ， 连 接 组 研究 人 员 将 埋 首 于 大 约 100 万 GB 数据 中 工作 。 
一 旦 绘制 出 精细 的 大 脑 结 构 、 功 能 图 ,就 可 以 进一步 研究 神经 环 路 的 构造 , 大 脑 随 发 育 、 
年 龄 增长 的 变化 ， 大 脑 的 网 络 属性 ， 神 经 /精神 疾 
病 的 根源 ; 还 可 以 研究 出 大 脑 多 大 程度 上 由 基因 
决定 ， 以 及 不 同 的 大 脑 功能 /结构 和 行为 的 关系 ， 
从 而 给 其 他 所 有 的 类 似 研究 提供 最 完美 的 “ 金 标 
准 ” 对 照 。 

如 图 4-8 所 示 , 为 20 名 健康 人 受 试 者 处 于 休 
息 状 态 下 接受 核磁 共振 扫描 ， 得 到 的 大 脑 皮层 不 
同 区 域 间 新 陈 代谢 活动 的 关联 关系 ， 并 用 不 同 的 
颜色 表现 是 条 图 4-8 “核磁 共振 扫描 出 的 人 类 大 及 

马 库 斯 说 : “我 们 将 拥有 1200 个 人 的 数据 ， 
因此 我 们 可 以 观察 到 个 体 之 间 脑 区 分 布 的 差别 ， 以 及 脑 区 之 间 是 如 何 关联 的 。 

专家 得 醒 
除了 连接 组 ， 人 类 的 身体 里 面 还 有 很 多 充满 数据 的 “组 ”。 
> 基因 组 : 由 DNA 编码 的 全 部 基因 信息 ， 或 者 由 RNA (核糖 核酸 ) 编码 的 ( 例如 病 
毒 ) 全 部 基因 信息 。 

> 转录 组 : 由 一 个 有 机 体 的 DNA 产生 的 全 套 RNA“ 读 数 ”。 
蛋白 质 组 : 所 有 可 以 用 基因 表达 的 蛋白 质 。 
代谢 组 : 一 个 有 机 体 在 新 陈 代谢 过 程 中 的 所 有 小 分 子 ， 包 括 中 间 产 物 和 最 终 产 物 。 
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【 案例 解析 】]， 意 识 从 何 而 来 ? 思维 和 智能 是 如 何 出 现 的 ? 这 些 终 极 问题 都 蕴藏 在 
人 类 的 大 脑 里 面 。 人 脑 是 终极 的 计算 机 器 ， 也 是 终极 的 大 数据 困境 ， 因 为 在 独立 的 神经 
元 之 间 有 无 数 可 能 的 连接 。 

人 类 连接 组 项 目 是 一 项 雄心 勃勃 的 试图 绘制 出 不 同 脑 区 之 问 相 互 作用 的 计划 ， 是 一 
项 对 大 脑 进行 的 逆向 工程 研究 ， 目 的 是 充分 挖掘 大 脑 里 的 有 效 数据 ， 借 此 明白 “大 脑 ” 
是 怎么 被 建造 的 ， 而 后 就 可 以 再 建 模拟 的 “大 脑 "， 从 而 真正 地 实现 人 造 智能 。 


4.3.5 【案例 】 数据 挖掘 助力 银行 的 营销 


蒙特 利 尔 银行 ( Bank of Montreal ) 是 根据 加 拿 大 《国会 法 》 于 1817 年 11 月 3 日 
建立 的 ， 是 加 拿 大 历史 最 悠久 的 银行 ， 也 是 加 拿 大 的 第 三 大 银行 ， 至 今 已 有 180 多 年 的 
历史 。 

20 世纪 90 年 代 中 期 ， 行 业 竞争 的 加 剧 导致 蒙特 利 尔 银行 需要 通过 “交叉 销售 ”来 
锁定 1800 万 客户 。" 交 叉 销售 " 是 指 借助 CRM ( 客户 关系 管理 ), 发 现 顾客 的 多 种 需求 ， 
并 通过 满足 其 需求 而 销售 多 种 相关 服务 或 产品 的 一 种 新 兴 营 销 方式 。 

“交叉 销售 ”体现 了 银行 的 一 个 新 焦点 一 一 客户 ， 而 不 是 商品 。 银 行 应 该 认识 到 客 
户 需 要 什么 产品 以 及 如 何 推销 这 些 产品 ， 而 不 是 等 待人 们 来 排队 购买 。 然 后 ， 银 行 需要 
开发 相应 商品 并 进行 营销 活动 ， 从 而 满足 这 些 需求 。 

在 应 用 数据 挖掘 之 前 ,银行 的 销售 代表 必须 于 晚上 6 点 至 9 点 在 特定 地 区 通过 电话 
向 客户 推销 产品 。 但 是 ， 正 如 每 个 处 于 接受 端的 人 所 了 解 的 那样 ， 大 多 数 人 在 工作 结束 
后 对 于 兜售 并 不 感 兴趣 。 因 此 ， 在 晚餐 时 间 进 行 电话 推销 的 反馈 率 非 常 低 。 

为 了 改变 这 种 不 利 的 局 面 ， 银 行 开 始 采用 IBM DB2 Intelligent Miner Scoring 系统 ， 
基于 银行 账户 余额 、 客 户 已 拥有 的 银行 产品 以 及 所 处 地 点 和 信贷 风险 等 标准 来 评价 记录 
档案 ， 这 些 评价 可 用 于 确定 客户 购买 某 一 具体 产品 的 可 能 性 。 另 外 ， 该 系统 能 够 通过 浏 
览 器 窗口 进行 查看 ， 这 使 得 管理 人 员 不 必 分 析 基 础 数据 ， 因 此 非常 适合 于 非 统 计 专 业 的 
人 员 。 

蒙特 利 尔 银 行 的 数据 挖掘 工具 为 管理 人 员 提 供 了 大 量 信 息 ， 从 而 帮助 他 们 对 从 营销 
到 产品 设计 的 任何 事情 进行 决策 。 现 在 ， 当 进行 更 具 针 对 性 的 营销 活动 时 ， 银 行 能 够 区 
别 对 待 不 同 的 客户 群 ， 以 提升 产品 和 服务 质量 ， 同 时 还 能 制定 适当 的 价格 和 设计 各 种 奖 
励 方 案 ， 甚 至 确定 利息 费用 。 

【 案例 解析 }: “交叉 销售 ”的 核心 是 向 原 有 顾客 销售 多 种 相关 的 产品 和 服务 ， 但 并 
不 是 简单 地 将 顾客 还 没有 购买 的 本 企业 的 产品 和 服务 推销 给 顾客 ， 而 是 通过 对 顾客 数据 
的 分 析 和 应 用 ， 发 现 顾客 的 不 同 需求 并 满足 其 需求 的 营销 方式 。 

企业 进行 “交叉 销售 ”首先 要 分 析 现 有 顾客 消费 行为 的 数据 ， 进 行 顾客 赢利 性 分 析 
( 通过 顾客 细 分 对 顾客 进行 赢利 性 分 析 )， 使 用 数据 挖掘 进行 交叉 规则 的 提取 并 锁定 目 
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标 顾客 ， 如 图 4-9 所 示 。 


顾客 赢利 分 析 


图 4-9 “交叉 销售 ”的 数据 挖掘 过 程 
专家 提醒 
数据 挖掘 技术 在 企业 市 场 营 销 中 得 到 了 比较 普遍 的 应 用 , 它 是 以 市 场 营销 学 的 市 场 细 分 
原理 为 基础 的 ， 其 基本 假定 是 “消费 者 过 去 的 行为 是 其 今后 消费 倾向 的 最 好 说 明 ”。 企业 通 
过 长 期 对 顾客 关系 管理 工具 和 数据 库 的 投资 ,积累 了 海量 顾客 数据 。 对 这 些 数 据 的 深度 探索 
是 企业 深入 了 解 和 掌握 现 有 顾客 群 的 关键 ， 也 是 实现 营销 精细 化 的 基础 。 


4.3.6 【案例 】 星 系 动物 园 里 的 数据 挖掘 


星系 动物 园 是 英国 研究 机 构 开 展 的 天 文学 研究 中 一 次 规模 最 大 的 普查 活动 。 志 愿 者 
利用 网 上 的 图 片 对 100 万 最 明亮 的 “疑似 ”星系 进行 识别 ， 分 辨 出 图 中 究竟 是 流 涡 星 系 
还 是 椭圆 星系 ， 或 者 根本 就 不 是 星系 。 

星系 动物 园 计 划 上 线 5 年 以 来 , 已 经 有 超过 65 
万 名 来 自 世界 各 地 的 天 文 爱好 者 参与 其 中 ， 这 些 信 
息 帮 助 科学 家 发 表 了 多 篇 高 质量 的 论文 。 

如 图 4-10 所 示 , 为 星系 动物 园 的 志愿 者 们 发 现 
的 差不多 2000 个 背光 星系 之 一 。 它 被 其 后 方 的 另 一 
个 星系 照 亮 ， 来 自 背 后 的 光 令 前 景 星系 中 的 尘埃 清 
晰 可 辨 。 星 际 尘埃 在 恒星 的 形成 中 扮演 了 关键 的 角 
色 ， 但 它 本 身 也 是 由 恒星 形成 的 ， 因 此 检测 其 数量 
和 位 置 对 于 了 人 解 星系 的 历史 至 关 重要 。 

下 面 笔 者 带 你 体验 一 下 这 个 过 程 : 进入 galaxyzoo.org 网 站 后 ， 注 册 一 个 用 户 名 并 
登录 。 接 受 一 些 简 单 培训 后 ， 就 可 以 在 网 站 上 逐个 识别 照片 中 的 星系 ， 如 图 4-11 所 示 。 
每 个 星系 照片 将 由 多 人 反复 识别 , 以 减少 差错 。 如 果 志 愿 者 对 某 一 星系 的 识别 结果 不 同 ， 
天 文学 家 将 做 出 最 后 判断 。 

星系 动物 园 积 累 志 愿 者 们 的 庞大 数据 ， 使 之 成 为 计算 机 学 习 分 类 的 理想 材料 ， 这 种 
动物 园 方法 在 zooniverse.org 网 站 上 得 到 了 复制 和 优化 。zooniverse.org 是 一 个 运行 着 


图 4-10 ”志愿 者 们 发 现 的 背光 星系 


大 约 20 个 项 目的 机 构 ， 这 些 项 目的 处 理 对 象 包括 热带 气旋 、 火 星 表面 和 船只 航行 日 志 
上 的 气象 数据 等 。 


4-11 在 galaxyzoo.org 网 站 上 逐个 识别 照片 中 的 星系 


【 案例 解析 ]， 人 脑 相 比 电脑 优势 在 于 ， 合 理 分 类 的 同时 不 至 于 吻 除 掉 那 些 不 规则 。 如 
的 、 怪 异 的 和 令 人 惊奇 的 形态 。 星 系 动物 园 项 目 打破 了 大 数据 的 规矩 : 它 没 有 对 数据 进 ” 理 
行 大 规模 的 计算 机 数据 挖掘， 而 是 把 图 像 交 给 活跃 的 志愿 者 ， 由 他 们 对 星系 做 基础 性 的 控 
分 类 。 

星系 动物 园 项 目 依赖 统计 学 、 众 多 观察 者 以 及 处 理 、 检 查 数据 的 逻辑 。 假 如 观察 某 ”一 一 一 
个 特定 星系 的 人 增加 时 ， 而 认为 它 是 椭圆 星系 的 人 数 比例 保持 不 变 ， 这 个 星系 就 不 必 
观察 了 。 如 果 将 来 中 国 天 文学 研究 也 有 海量 数据 需要 挖掘 和 处 理 ， 笔 者 觉得 也 可 以 借鉴 
这 一 模式 。 


学 前 提示 


对 于 大 数据 ， 不 仅 要 从 数据 挖掘 、 数 据 分 析 的 层面 去 解决 “大 ”的 问题 ， 更 重要 的 
是 如 何 将 挖掘 与 分 析 的 结果 直观 呈现 出 来 ， 转 换 为 用 户 真 正 需要 的 有 价值 的 洞察 力 。 本 
章 将 结合 企业 管理 和 能 源 管理 ， 寿 放 一 切 数据 的 力量 ， 做 到 真正 的 智能 化 管理 。 


< 


< 
< 
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不 能 再 等 ， 大 数据 时 代 的 思维 变革 
知己 知 彼 ， 数 据 分 析 的 演变 与 现状 
企业 管理 中 的 大 数据 分 析 应 用 案例 
能 源 管理 中 的 大 数据 分 析 应 用 案例 
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5 不 能 等 ， 大 数 X 据 时 代 的 思维 变量 


“大 数据 时 代 " 带 来 了 思维 模式 、 商 业 模 式 和 数据 管理 控制 方式 等 方面 的 重大 改变 ， 
需要 我 们 树立 新 理念 ， 运 用 “多 平台 融合 ”的 信息 处 理 方法 ， 努力 对 信息 进行 动态 和 可 
视 化 的 呈现 。 


5.1.1 利用 所 有 的 数据 


在 大 数据 时 代 ， 我 们 要 改变 以 下 3 个 思维 : 
> ”在 做 数据 分 析 时 ， 不 能 再 仅仅 依靠 一 小 部 分 数据 采样 ， 而 要 利用 所 有 的 数据 。 
> 面 对 快速 的 、 多 源 的 、 结 构 复 杂 的 海量 信息 ， 我 们 一 定 要 乐于 接受 ， 要 不 断 扩大 
数据 的 分 析 量 。 
> ”改变 思考 问题 的 方向 ， 应 关注 事物 之 间 的 相关 关系 ， 而 不 再 探求 难以 捉摸 的 因果 
关系 。 
随 着 科技 的 发 展 ， 我 们 可 以 处 理 的 数据 量 已 经 大 大 地 增加 ， 而 且 未 来 会 越 来 越 多 。 
甚至 在 某 些 方面 ， 我 们 已 经 拥有 了 能 够 收集 和 处 理 更 大 规模 数据 的 能 力 。 
例如 ，ZestFinance 是 一 个 利用 “机 器 学 习 + 大 数据 分 析 ” 为 payday loan 行业 ( 发 
薪 日 贷款 ， 类 似 高 利 贷 的 短期 高 利息 借款 ) 提供 客户 品质 分 析 的 平台 。ZestFinance 平 
台 与 传统 的 分 析 方式 不 同 ， 其 可 同时 运营 多 个 模型 对 所 有 的 海量 数据 进行 分 析 来 判断 各 
种 可 能 性 ， 再 加 上 越 来 越 多 的 数据 来 源 和 种 类 ， 然 后 这 些 信 息 被 转化 为 几 万 个 可 对 借贷 
者 行为 做 出 测量 的 指标 ， 如 诈骗 几率 、 长 期 和 短期 内 的 信用 风险 和 客户 的 偿还 能 力 等 。 
最 后 ， 各 模型 的 结果 被 整合 成 最 终结 果 ， 可 在 几 秒 内 为 用 户 提供 最 可 靠 的 结果 。 
在 数字 化 时 代 ， 数 据 处 理 变 得 更 加 容易 、 更 加 快速 ， 人 们 能 够 在 瞬间 处 理 成 千 上 万 
的 数据 。 因 此 ， 面 对 过 去 小 数据 采样 的 思维 方式 ， 我 们 一 定 要 及 时 转变 过 来 ， 要 利用 所 
有 的 数据 来 思考 问题 。 


5.1.2 ”充分 利用 这 些 数据 


在 大 数据 分 析 尚未 被 主流 接受 的 时 代 ， 有 超过 三 分 之 一 的 受 访 者 表示 ， 他 们 所 在 的 
企业 结合 大 数据 ， 实 行 了 某 种 形式 的 先进 的 分 析 。 在 大 多 数 情况 下 ， 他 们 仅仅 采用 非常 
简便 的 方法 ， 例 如 数据 抽样 。 

三 百 多 年 前 ， 英 国 约克 大 学 统计 学 家 约翰 . 格 朗 特 ( John Graunt ) 采用 样本 分 析 法 
推算 出 鼠疫 时 期 伦敦 的 人 口 数 ， 这 种 方法 就 是 后 来 的 统计 学 。 这 个 方法 不 需要 一 个 人 一 
个 人 地 计算 ， 可 以 利用 少量 有 用 的 样本 信息 来 获取 人 口 的 整体 数据 。 


D> 


专家 提醒 

约翰 。 格 朗 特首 次 提出 通过 大 量 观察 ， 可 以 发 现 新 生 儿 性 别 比例 具有 稳定 性 以 及 不 同 
死因 的 比例 等 人 口 规律 ， 如 男 婴 出 生 多 于 女 婴 ; 并 且 第 一 次 编制 了 “生命 表 ”， 对 死亡 率 与 
人 口 寿 命 作 了 分 析 ， 从 而 引起 了 普遍 的 关注 。 约翰 。 格 朗 特 的 研究 清楚 地 表明 了， 统计 学 作 
为 国家 管理 工具 的 重要 作用 ， 其 他 被 认为 是 人 口 统计 学 的 主要 创始 人 之 一 。 

在 收集 和 分 析 数 据 都 不 容易 时 ， 随 机 采样 就 成 为 应 对 信息 采集 困难 的 办 法 。 通 过 收 
集 随机 样本 ， 人 们 可 以 用 较 少 的 花费 做 出 高 精准 度 的 推断 。 因 此 ， 随 机 采样 很 快 就 被 应 
用 于 公共 部 门 和 人 口 普 查 ， 甚 至 被 用 来 在 商业 领域 监管 商品 质量 。 随 机 采样 取得 了 巨大 
的 成 功 ， 成 为 了 现代 社会 、 现 代 测 量 领域 的 主心骨 。 

其 实 ， 随 机 采样 一 直 都 有 较 大 的 漏洞 ， 它 只 是 在 不 可 收集 和 分 析 全 部 数据 的 情况 下 
的 无 奈 选择 。 统 计 学 家 们 证 明 ， 采 样 分 析 的 精确 性 随 着 采样 随机 性 的 增加 而 大 幅 提 高 ， 
但 与 样本 数量 的 增加 关系 不 大 。 笔 者 认为 这 种 观点 是 非常 有 见地 的 ， 为 我 们 开辟 了 一 条 
收集 信息 的 新 道路 。 

这 就 是 我 们 要 改变 的 思维 ， 虽 说 随机 采样 是 一 条 捷径 ， 但 它 也 只 是 一 条 捷径 。 随 机 
采样 方法 并 不 适用 于 一 切 情 况 ， 因 为 这 种 调查 结果 缺乏 延展 性 ， 即 调查 得 出 的 数据 不 可 
以 被 重新 分 析 以 实现 计划 之 外 的 目的 。 如 果 企 业 没 有 考虑 逐步 淘汰 抽样 调查 和 其 他 过 去 
的 所 谓 最 佳 实践 的 “神器 "， 他 们 真 的 是 后 知 后 觉 了 。 


5.1.3 海量 数据 替代 采样 


在 信息 处 理 能 力 受 限 的 时 代 ， 世 界 需 要 数据 分 析 ， 却 缺少 用 来 分 析 所 收集 数据 的 工 
具 ， 因 此 随机 采样 应 运 而 生 ， 采 样 技术 ( sampling technique ) 被 誉 为 20 世纪 最 伟大 的 
成 就 之 一 。 采 样 技术 最 通俗 的 解释 是 ,从 统计 调查 总 体 ( population ) 中 抽取 样本 ( sample ) 
进行 调查 ， 获 取 数 据 ， 然 后 对 总 体 数量 特征 作出 推断 的 技术 ， 其 流程 如 图 5-1 所 示 。 采 
样 的 目的 就 是 用 最 少 的 数据 得 到 最 多 的 信息 。 

今 ， 计 算 和 制 表 不 再 像 过 去 一 样 困 难 。 感 应 器 、 手 机 导航 、 网 站 点 击 和 Twitter 
被 动 地 收集 了 大 量 数 据 ， 而 计算 机 可 以 轻易 地 对 这 些 数据 进行 处 理 。 当 我 们 可 以 获得 海 
量 数据 的 时 候 ， 采 样 技术 也 就 随 之 失去 了 它 的 优势 。 

然而 ， 采 样 一 直 有 一 个 被 我 们 广泛 承认 却 又 总 有 意 避 开 的 缺陷 ， 现 在 这 个 缺陷 越 来 
越 难以 忽视 了 。 采 样 忽视 了 细节 考察 。 虽 然 我 们 别 无 选择 ， 只 能 利用 采样 分 析 法 来 进行 
考察 ， 但 是 在 很 多 领域 ， 从 收集 部 分 数据 到 收集 尽 可 能 多 的 数据 的 转变 已 经 发 生 了 。 如 
果 可 能 的 话 ， 我 们 要 收集 所 有 的 数据 ， 即 将 项 目的 整体 数量 当 作 样 本 来 审核 、 测 试 、 分 
析 。 这 样 ， 我 们 能 对 数据 进行 深度 探索 ， 而 采样 几乎 无 法 达到 这 样 的 效果 。 
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确定 测试 目标 
定义 整体 、 采 样 单元 和 误差 


确定 实现 目标 的 审核 程序 


全 部 项 目 数 据 〈 即 大 数据 ) 
确定 检查 的 项 目 数量 


根据 判断 确定 样本 规格 


根据 判断 选择 代表 性 样本 : 
使 用 随机 数 表 或 计算 机 随机 选 样 、 系 统 选 样 、 
产生 的 随机 数 选取 样本 货币 单元 选 样 等 


根据 统计 模型 确定 样本 规格 


实施 审核 程序 


实施 审核 程序 
评测 结果 : 分 析 错 报 和 
偏差 的 性 质 和 原因 ， 推 
用 统计 方法 评估 结果 断 至 整体 ， 并 作出 结论 


记录 实施 的 采样 程序 、 结 果 和 结论 


图 5-1 采样 流程 


通过 使 用 所 有 的 数据 ， 我 们 可 以 发 现 如 若 不 然则 将 会 在 大 量 数据 中 被 淹没 掉 的 信 
息 。 例 如 ， 信 用 卡 诈骗 是 通过 观察 异常 情况 来 识别 的 ， 只 有 掌握 了 所 有 的 数据 才能 做 到 
这 一 点 。 在 这 种 情况 下 ,异常 值 是 最 有 用 的 信息 , 你 可 以 把 它 与 正常 交易 情况 进行 对 比 。 
这 是 一 个 大 数据 问题 。 而 且 因 为 交易 是 即时 的 ， 所 以 你 的 数据 分 析 也 应 该 是 即时 的 。 

随机 采样 只 是 一 个 暂时 性 的 数据 ， 随 着 你 收集 的 数据 越 来 越 多 ， 你 的 预测 结果 会 越 
来 越 准确 。 数 据 处 理 技 术 已 经 发 生 了 翻天 覆 地 的 改变 ， 但 我 们 的 方法 和 思维 却 没有 跟 上 
这 种 改变 。 所 以 , 我 们 现在 要 尽量 放弃 样本 分 析 这 条 捷径 , 选择 收集 全 面 而 完整 的 数据 。 


专家 提醒 
当然 , 想 要 用 海量 数据 来 代替 采样 也 不 是 那么 容易 的 , 我们 需要 足够 的 数据 处 理 和 存储 


能 力 ， 也 需要 最 先进 的 分 析 技术 。 同 时 ， 简 单 廉价 的 数据 收集 方法 也 很 重要 。 过 去 ， 这 些 问 
题 中 的 任何 一 个 都 很 棘手 。 在 资源 有 限 的 时 代 ， 要 解决 这 些 问 题 需 要 付出 很 高 的 代价 。 但 是 
现在 ， 解 决 这 些 难题 已 经 变 得 简单 了 。 曾 经 只 有 大 公司 才能 做 到 的 事情 ， 现 在 绝 大 部 分 的 公 
司 都 可 以 做 到 了 。 


5.2 知己知彼， 数据 分 析 的 演变 与 现状 


以 往 的 数据 分 析 主 要 停留 在 结构 化 数据 挖掘 的 阶段 ， 例 如 移动 、 金 融 等 企业 内 部 的 
信息 收集 。 目 前 ， 随 着 大 量 非 结构 化 数据 的 产生 ， 例 如 和 人 的 行为 、 富 媒体 、 气 候 变 化 等 
内 容 ， 已 经 对 业界 提出 轩 新 的 挑战 ， 一 切 事物 都 可 以 用 大 数据 来 分 析 。 


5.2.1 大 数据 分 析 的 商业 驱动 力 


数据 的 应 用 与 价值 由 来 已 久 ， 随 着 互联 网 时 代 的 发 展 ， 数 据 的 开放 为 创新 和 价值 生 
产 的 繁盛 提供 了 一 个 平台 ， 为 商业 不 断 打开 了 新 的 大 门 。 新 的 商业 模式 、 形 态 、 传 播 该 
如 何 更 好 地 利用 数据 ， 相 信 大 家 都 仍 在 摸 着 石头 过 河 。 

因此 ， 为 了 实现 新 的 成 本 节省 和 增长 计划 ， 大 量 企 业 和 机 构 在 商业 智能 方案 上 投入 
重金 ， 深 入 挖掘 电子 表格 和 各 种 不 同系 统 ( 遗留 系统 、 内 部 孤岛 、 客 户 关系 、 供 应 商 、 合 
作 伙 伴 等 ) 中 的 数据 ， 以 期 获得 接近 实时 的 可 操作 分 析 结果 ( 包括 历史 分 析 和 未 来 预测 )。 

任何 企业 只 要 拥有 正确 的 数据 信息 ， 就 能 较为 精确 地 了 解 受 众 ， 知 晓 受 众 如 何 与 你 
进行 互动 ， 知 晓 他 们 对 于 你 的 品牌 有 怎样 的 期 待 与 回应 。 同 时 ， 数 据 还 能 帮助 你 更 好 地 
与 受众 进行 针对 性 的 互动 与 回应 。 因 此 ， 笔 者 认为 ， 数 据 的 关键 价值 在 于 其 有 效 性 。 它 
能 在 定义 受众 市 场 、 接 触 受众 、 与 受众 沟通 等 各 阶段 给 予 你 有 效 的 指引 ， 并 最 终 助 推 你 
的 销售 。 

随 着 企业 管理 走向 “信息 驱动 "， 商 业 智 能 将 成 为 企业 信息 计划 的 核心 。 大 数据 市 
场 在 未 来 五 年 将 保持 58% 的 惊人 复合 增长 速度 ， 会 带 来 一 场 新 的 工业 革命 ， 如 表 5-1 所 
示 ， 而 作为 与 大 数据 相关 的 商业 智能 平台 和 应 用 也 将 受益 。 


表 5-1 大 数据 分 析 带 来 新 的 工业 革命 


进 程 第 一 次 工业 革命 第 二 次 工业 革命 第 三 次 工业 革命 
时 间 |18 世纪 60 年 代 ~19 世 纪 40 年 代 |19 世纪 70 年 代 -20 世纪 初 | 21 世纪 初 
能 源 计算 


材料 数据 
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5.2.2 大 数据 分 析 环 境 的 演变 


“大 数据 ”这 个 概念 从 2008 年 9 月 正式 提出 以 来 已 经 发 展 了 5 年 多 了 ,2012 年 是 
大 数据 发 展 最 快 的 时 期 , 主要 原因 是 ,在 IBM 等 多 方 厂商 及 政府 的 共同 努力 下 ， 才 使 得 
“大 数据 ”在 中 国 变 成 一 个 流行 概念 。 大 数据 分 析 的 环境 演变 过 程 如 表 5-2 所 示 。 


表 5-2 大 数据 分 析 环 境 的 演变 过 程 
大 数据 分 析 1.0 大 数据 分 析 2.0 大 数据 分 析 3.0 


自身 业务 需求 产生 | 收集 与 目标 业务 直接 或 间 | 半数 据 源 的 质量 、 价 值 、 权 益 、 


隐私 、 安 全 等 产生 充分 认识 , 出 
大 量 数 据 接 关 联 的 大 量 异 质 数据 台 量 化 与 保障 措施 


数据 运营 商 出 现 ， 数 据 市 场 形 
成 ， 数 据 产品 丰富 ， 数 据 客 


利用 这 些 数据 ， 通 | 建立 复杂 的 分 析 和 预测 
过 深入 的 分 析 和 论 | 模型 , 产生 针对 目标 业务 
ed es (Dacker) 活跃 , 促使 分 析 论 证 
证 ， 优 化 相关 业务 | 的 输出 方法 进一步 完善 


学 术 团 体 、 企 业 和 政府 通过 大 量 
用 数据 指导 决策 “| 数据 即 决策 异 质数 据 和 数据 产品 产生 科学 、 
社会 、 经 济 等 方面 的 新 价值 


Google Flu Trends (谷歌 
沃尔玛 、 亚 马 进 、| 流 感 趋势 )、ZestFinance、 


百分点 、 豆 办 Google Powermeter (用 电 大 数据 实验 宣 《BigDatiiab》 


监测 软件 ) 


1. 大 数据 分 析 1.0 一 一 商业 智能 时 代 
在 大 数据 分 析 1.0 时 代 ， 数 据 管理 已 经 有 了 实质 性 的 发 展 ， 其 能 够 客观 分 析 和 深入 
理解 重要 的 商业 现象 ， 并 且 帮 助 管理 者 基于 客观 事实 决策 ， 而 不 是 仅 赁 直觉 。 在 商业 实 
践 中 ， 生 产 流程 、 销 售 、 客 户 交互 乃至 更 多 的 数据 ， 第 一 次 被 存 录 、 整 合 和 分 析 。 
大 数据 分 析 1.0 时 代 具 有 以 下 特点 。 
> ”建立 企业 级 数据 仓库 : 最 初 ， 大 公司 凭借 其 雄厚 资本 可 以 定制 数据 系统 ， 随 后 数 
据 系统 很 快 被 商业 化 ， 可 以 由 外 部 供应 商 以 更 通用 的 方式 提供 给 更 多 公司 。 这 就 
是 企业 级 数据 仓库 的 时 代 ， 系 统 可 以 捕捉 数据 ， 然 后 利用 软件 进行 商业 智能 分 析 ， 
最 后 可 以 进行 数据 查询 和 结果 交付 。 
> ”数据 管理 出 现 新 问题 : 体 量 相对 较 小 、 流 转速 度 较 低 时 ， 数 据 组 可 以 在 数据 仓库 
中 分 别 存储 并 用 于 分 析 。 但 是 ， 在 数据 仓库 中 进行 数据 准备 和 排序 依然 是 一 个 难 
题 。 数 据 分 析 师 往往 要 花 大 量 的 时 间 用 在 准备 数据 上 ， 只 剩 下 相对 很 少 的 时 间 用 


在 数据 分 析 上 。 
> ”数据 分 析 的 周期 过 长 : 数据 分 析 师 只 能 选择 对 几 个 非常 关键 的 问题 进行 数据 分 析 ， 
因为 分 析 需 要 数 周 甚至 数 月 的 时 间 ， 其 过 程 艰难 且 缓 慢 。 
> 大 数据 无 法 预测 未 来 :作为 商业 智能 最 重要 的 部 分 
过 去 所 发 生 的 事情 ， 既 无 法 解释 过 去 ， 也 无 法 预测 未 来 。 
在 大 数据 分 析 1.0 时 代 ， 人 们 会 把 分 析 视 为 竞争 优势 的 来 源 。 但 很 少 有 人 会 使 用 类 
似 “ 人 才 竞 争 ” 或 “成 本 竞争 ”这 样 的 方式 来 表述 “分 析 竞 争 "。 因 此 ， 企 业 应 及 时 调 
整 大 数据 分 析 的 方向 ， 将 核心 竞争 优势 放 在 更 有 效 的 运营 基础 上 ， 也 就 是 在 关键 节点 上 
做 出 更 好 的 决策 ， 从 而 提高 公司 业绩 。 
2. 大 数据 分 析 2.0 一 一 大 数据 时 代 


“数据 汇报 系统 ”只 描述 


2005 年 初 ， 谷 歌 、eBay 等 硅谷 的 互联 网 公司 和 社交 网 络 开 始 大 规模 存储 和 分 析 新 
类 型 信息 ， 尽 管 此 时 还 没有 产生 “大 数据 ”一 词 ， 但 现实 情况 快速 地 改变 了 数据 和 分 析 
师 在 企业 内 的 角色 。 

大 数据 分 析 2.0 时 代 具 有 以 下 特点 。 


> ”数据 量 明显 增 大 : 大 数据 明显 有 别 于 系统 内 部 产生 的 交易 类 “小 ”数据 ， 它 们 是 
来 自 公司 外 部 、 互 联网 、 传 感 器 、 各 种 公开 发 布 的 数据 ( 例如 和 类 基因 组 计划 )， 
还 包括 来 源 于 音频 和 视频 的 数据 。 

> ”出 现 新 型 商业 模式 ， 当 大 数据 分 析 进 入 2.0 时 代 ， 人 们 对 于 强大 的 新 型 分 析 工 具 
的 需求 以 及 通过 提供 工具 来 获 利 的 机 会 ， 很 快 就 显而易见 了 。 所 有 企业 都 忙于 发 
展 新 能 力 和 争取 新 客户 。 第 一 个 “ 吃 螃 蟹 ”的 企业 很 容易 占 得 先 机 ， 获 得 令 人 印 
象 深刻 的 宣传 效果 ， 并 且 会 快速 地 研发 出 新 产品 。 

> 创新 技术 如 雨后春笋 般 涌现 : 例如 ，Hadoop 平台 应 运 而 生 ， 其 可 以 用 来 快速 批 处 
理 大 数据 ; 新 型 数据 库 NoSQL 可 以 处 理 相关 的 非 结 构 化 数据 , 使 大 量 的 信息 可 以 
在 公有 或 者 私有 云 计 算 环境 里 存储 和 分 析 ; 机 器 学 习 ( 半自动 模型 的 研发 、 测 试 ) 
则 用 于 从 实时 动态 的 数据 中 迅速 生成 数据 模型 ， 色 彩 鲜明 、 立 体 效 果 的 数据 视觉 
化 替代 了 单调 的 白 纸 黑 字 。 

> ”对 分 析 人 才 提 出 了 更 高 的 要 求 : 新 一 代 的 数据 分 析 师 被 称 为 数据 科学 家 ， 他 们 不 
仅 要 具备 计算 能 力 还 要 掌握 分 析 能 力 。 数 据 科学 家 已 不 再 满足 于 被 藏 在 公司 内 部 ， 
他 们 希望 接触 客户 以 开发 新 产品 ， 并 为 公司 出 谋划 策 ， 甚 至 是 创造 新 的 商业 形态 。 

3. 大 数据 分 析 3.0 一 一 宣化 数据 的 产品 时 代 

在 大 数据 分 析 2.0 时 代 , 一 些 敏 锐 的 观察 者 已 经 洞察 到 即将 来 临 的 下 一 个 大 时 代 一 一 大 

数据 分 析 3.0 时 代 。 
大 数据 分 析 3.0 时 代 具 有 以 下 特点 。 
> ”大 企业 纷纷 介入 大 数据 : 例如 ， 硅 谷 的 大 数据 先驱 公司 开始 投资 面向 客户 产品 、 
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服务 和 功能 领域 的 数据 分 析 。 他 们 通过 大 数据 分 析 吸引 更 多 的 访客 登录 他 们 的 网 
站 ， 这 些 办 法 包括 更 佳 的 搜索 算法 、 朋 友和 同事 推荐 产品 、 购 买 建议 以 及 针对 性 
极 高 的 定向 广告 等 。 

大 数据 的 应 用 范围 变 得 更 广泛 如今， 不 仅仅 是 IT 公司 或 者 电子 商务 公司 利用 数 
据 分 析 创造 新 产品 和 新 服务 ， 任 何 行业 的 任何 公司 都 在 这 样 做 。 无 论 企业 属于 制 
造 类 、 运 输 类 、 零 售 类 ， 还 是 服务 提供 类 ， 这 些 商业 活动 都 会 产生 大 量 的 数据 ， 
任何 设备 、 运 输 工具 和 客户 都 会 留 下 痕迹 ， 如 果 能 够 分 析 这 些 数据 集 ， 就 可 以 更 
好 地 帮助 积累 客户 和 分 析 市 场 ， 帮 助 管理 者 做 出 适当 的 商业 决策 。 

带 来 了 全 新 的 机 遇 和 挑战 ， 新 的 思维 方式 正在 涌现 ， 能 掌握 优势 的 新 方法 正在 确 
立 , 新 的 参与 者 开始 出 现 ， 竞争 格局 也 随 之 发 生变 化 ， 新 的 技术 必须 被 熟练 掌握 ， 


人 才 也 应 配置 于 最 令 人 兴奋 的 新 岗位 上 。 那 些 能 首先 洞察 到 大 数据 分 析 3.0 时 代 
的 公司 ， 将 会 在 引领 行业 变革 的 趋势 中 占据 最 佳 位 置 。 
5.2.3 大 数据 分 析 与 处 理 方法 

要 知道 ， 大 数据 已 不 再 仅仅 是 数据 量 大 ， 最 重要 的 现实 就 是 对 大 数据 进行 分 析 ， 只 
有 通过 分 析 才 能 获取 更 多 智能 的 、 深 入 的 、 有 价值 的 信息 。 

如 表 5-3 所 示 ， 是 笔者 对 海量 数据 的 处 理 方法 进行 了 一 个 一 般 性 的 总 结 ， 当 然 这 些 
方法 并 不 能 完全 覆盖 所 有 的 问题 ， 但 是 这 样 的 一 些 方法 也 基本 可 以 处 理 遇 到 的 绝 大 多 数 
问题 。 

表 5-3 大 数据 分 析 与 处 理 方法 总 结 
分 析 方 法 适 用 范 基本 原理 及 要 点 
可 以 用 来 实现 数据 字 | 采 用 哈 希 函数 的 方法 ,将 一 个 元 素 映 射 到 一 个 m 长 度 
Bloom filter | 典 ， 进 行 数据 的 重 判 ，| 的 阵列 上 的 一 个 点 ， 当 这 个 点 是 1 时， 那么 这 个 元 素 
或 者 集合 求 交集 在 集合 内 ， 反 之 则 不 在 集合 内 
、 例如 , 在 海量 的 日 志 数据 中 提取 出 某 日 访问 百度 次 数 
pdr ep 最 多 的 那个 他 , IP 的 数目 还 是 有 限 的 , 最 多 2^32 个 ， 
ne a “| 所 以 可 以 考虑 使 用 hash 算法 将 人 P 直接 存 入 内 存 ， 然 
全 部 数据 放 入 内 存 ey 
后 进行 统计 
使 用 bit 数组 ( 树 状 数组 ) 来 表示 某 些 元 素 是 否 存在 ， 
可 可 进行 数据 的 快速 查 | 即将 原 数据 划分 为 多 个 区 间 , 当 要 查询 或 更 新 某 个 数 
2 找 、 判 断 、 删 除 据 或 某 段 数据 时 ， 只 需 更 新 到 各 个 区 间 不 必 细 化 到 具 
体 的 各 个 元 素 
ey 从 海量 数据 中 找 出 前 NN 为 比 海量 数据 小 的 数 ) 个 
加 可 进行 数据 的 快速 排序 | 数据 ,例如 ， 从 一 亿 个 数据 里 ， 找 出 前 100 个 最 大 的 


分 析 方 法 


双 层 桶 划分 


适用 范围 


用 于 确定 数据 的 范围 


续 表 
基本 原理 及 要 点 
面 对 一 堆 大 量 的 数据 我 们 无 法 处 理 时 ， 可 以 将 其 分 成 
一 个 个 小 的 单元 ， 然 后 根据 一 定 的 策略 来 处 理 这 些小 
单元 ， 从 而 达到 目的 。 另 外 ， 如 果 需 要 用 一 个 小 范围 
的 数据 来 构造 一 个 大 数据 ， 也 可 以 利用 这 种 思想 ， 相 
比 之 下 不 同 的 ， 只 是 其 中 的 逆 过 程 


数据 库 索 引 


Inverted index 


外 排序 


tree 树 


今 ， 越 来 越 多 的 应 用 涉及 大 数据 ， 这 些 大 数据 的 属性 ， 包 括 数 量 、 速 度 、 多 样 性 
等 都 呈现 了 大 数据 不 断 增 长 的 复杂 性 ， 所 以 ， 大 数据 的 分 析 方 法 在 大 数据 领域 就 显得 万 


大 量 数据 的 增加 、 删 
除 、 修 改 和 查询 


搜索 引擎 , 关键 字 查 询 


大 数据 的 排序 


用 于 统计 、 排序 和 保存 
大 量 的 字符 串 , 经 常 被 
搜索 引擎 系统 用 于 文 
本 词 频 统计 


利用 数据 的 设计 实现 方法 ， 对 海量 数据 进行 增加 、 删 
除 、 修 改 和 查询 处 理 

Inverted index ( 倒 排 索引 ) 是 一 种 索引 方法 ， 被 用 来 存 
储 在 全 文 搜索 下 ， 某 个 单词 在 一 个 文档 或 者 一 组 文档 
中 的 存储 位 置 的 映射 。 

以 英文 为 例 ， 下 面 是 要 被 索引 的 文本 : 

TO= "itis what it is" 

T1 = "what is it" 

T2 = "itis a banana" 


通过 倒 排 索引 方法 就 能 得 到 下 面 的 反 向 文件 索引 : 


下 {2} 
"banana": {2} 
和 {0, 1, 2} 
We {0, 1, 2} 
"what": {0,1} 


检索 的 条 件 "what"、"is" 和 "it" 将 对 应 集合 的 交集 
通常 来 说 ， 外 排序 (External Sorting) 处 理 的 数据 不 能 
-次 装 入 内 存 ， 只 能 放 在 读 写 较 慢 的 外 存储 器 (通常 是 
硬盘 ) 上 。 外 排序 通常 采用 的 是 一 种 “排序 -归并 ”的 策 
略 。 在 排序 阶段 ， 先 读 入 能 放 在 内 存 中 的 数据 ， 将 其 排 
序 输出 到 一 个 临时 文件 ， 依 此 进行 ， 将 待 排序 数据 组 织 
为 多 个 有 序 的 临时 文件 。 而 后 在 归并 阶段 ， 将 这 些 临 时 
文件 组 合 为 一 个 大 的 有 序 文件 ， 也 即 排序 结果 


利用 字符 串 的 公共 前 级 来 减少 查询 时 间 ， 最 大 限度 地 
减少 无 谓 的 字符 串 比较 ， 查 询 效率 比 哈 希 表 高 


.. 户 了 二 


山 | 
海 
量 
到 
精 
惟 


引 | EE 


为 重要 ， 可 以 说 是 最 终 信息 是 否 有 价值 的 决定 性 因素 。 
专家 提 恒 
需要 注意 的 是 ， 尽管 大 数据 已 经 有 了 长 足 的 进步 , 但 不 要 指望 它 能 给 予 你 长 期 的 竞争 优 
势 。 那些 想 要 在 新 的 数据 经 济 中 获得 成 功 的 企业 ， 必 须 从 根本 上 重新 考虑 如 何 利用 数据 分 析 
为 自己 和 客户 创造 价值 。 因 此 ， 我 们 要 用 全 新 的 视角 看 待 大 数据 “分 析 ” 的 价值 和 作用 ， 这 
意味 着 战略 重点 的 转移 。 
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5.3 ”企业 管理 中 的 大 数 据 分 析 应 用 案 倒 


关于 数据 分 析 对 管理 的 重要 性 ， 在 《孙子 兵法 》 中 已 有 深刻 的 描述 :“ 夫 未 战 而 庙 
算 胜 者 ， 得 算 多 也 。” 意思 是 说 ， 拉 开战 斗 序 幕 之 前 ， 就 已 “ 庙 算 ”( 古 时 战 前 君主 在 宗 
庙 里 举行 仪式 ， 商 讨 作战 计划 和 预测 战争 形势 ) 周密 ， 即 充分 估量 了 有 利 条 件 和 不 利 条 
件 ， 开 战 之 后 就 往往 会 取得 胜利 。 
同样 ， 预 测 在 企业 中 有 重要 的 意义 ， 在 大 数据 时 代 ， 预 测 的 准确 度 或 许 能 够 更 上 一 
个 台阶 ， 这 将 促进 企业 健康 发 展 。 因 此 ， 企 业 只 有 找到 将 数据 科学 与 传统 技能 完美 结合 
的 方式 ， 才 能 打败 对 手 。 不 是 所 有 的 赢家 都 会 将 大 数据 用 于 其 决策 制定 ， 但 数据 告诉 我 
们 ， 这 样 确实 胜算 最 大 。 本 节 主 要 介绍 大 数据 分 析 在 企业 管理 中 的 应 用 案例 ， 希 望 对 读 
者 有 一 定 的 启发 和 学 习 价值 。 


5.3.1 【案例 】 机 场 用 大 数据 管理 节省 数 百 万 美元 


近日 ， 美 国 里 克 哈 斯 本 德 阿 马里 洛 国际 机 场 ( Rick Husband Amarillo International 
Airport ) 签署 了 PASSUR 大 数据 解决 方案 合同 ,该 方案 旨 在 通过 优化 的 机 场 管理 为 运营 
商 提供 最 经 济 的 运营 。 

PASSUR 公司 研究 机 场 的 航班 时 间 发 现 , 大约 10% 的 航班 实际 到 达 时 间 与 预计 到 达 
时 间 相 差 10 分 钟 以 上 ，30% 的 航班 相差 5 分 钟 以 上 。 为 了 提高 服务 质量 ，PASSUR 公 
司 通过 搜集 天 气 、 航 班 日 程 表 等 公开 数据 ， 结 合 自己 独立 收集 的 其 他 影响 航班 因素 的 非 
公开 数据 ， 综 合 预测 航班 到 港 时 间 。 例 如 ， 由 于 和 天气 原 因 造 成 延误 时 ， 应 尽量 让 飞机 在 
登 机 门 处 等 候 ， 而 不 是 浪费 燃油 长 时 间 在 停机 坪 上 等 候 。 

里 克 哈 斯 本 德 阿 马里 洛 国际 机 场 航 空 部 主管 Scott C. Carr 表示 :“ 在 当前 的 环境 下 
我 们 非常 注意 的 是 ， 机 场 必 须 把 两 种 价值 作为 最 重要 的 事项 : 谨慎 的 财务 监督 和 高 效 安 
全 且 经 济 的 机 场 管理 。PASSUR 是 实现 这 些 关键 业务 目标 的 理想 合作 伙伴 。 

PASSUR 公司 从 美国 联邦 航空 局 处 得 到 飞行 计划 、 实 时 信息 和 每 个 航班 的 首 个 航 
点 。 随 后 工作 人 员 会 给 每 个 航班 分 配 15 分 钟 进行 排序 。 无 论 何 种 原因 ， 如 果 空 中 交通 
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指挥 塔台 延长 了 计划 时 间 ， 则 所 有 的 航空 公司 得 到 的 配额 时 间 都 会 相应 减少 。 运 营 商 可 
以 在 他 们 分 配 到 的 时 间 里 更 换 自己 的 飞机 。 

目前 ,， PASSUR 公司 已 经 拥有 超过 155 处 无 源 雷达 接收 站 , 每 4.6 秒 就 收集 一 次 探 
测 到 的 每 架 飞 机 的 一 系列 信息 , 这 会 持续 地 带 来 海量 数据 。 使 用 PASSUR 公司 的 服务 后 ， 
里 克 哈 斯 本 德 阿 马 里 洛 国际 机 场 大 大 缩短 了 飞机 预计 到 达 时 间 和 实际 抵达 之 间 的 时 间 
差 。 航 空 公司 依据 PASSUR 公司 为 他 们 提供 的 航班 到 达 时 间 做 计划 ， 每 年 节省 数 百 万 
美元 。 
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专家 提醒 

企业 管理 学 界 因 观点 不 同 而 分 为 众多 派系 ， 但 是 “不 会 量化 就 无 法 管理 ”的 理念 却 是 共 
识 。 这 一 共识 足以 解释 近年 来 的 数字 大 爆炸 为 何 无 比重 要 。 有 了 大 数据 ， 管 理 者 可 以 将 一 切 
量化 ， 从 而 使 公司 业务 尽 在 掌握 中 ， 进 而 提升 决策 质量 和 业绩 表现 。 

【 案例 解析 }， 在 进入 大 数据 时 代 后 ， 如 何 更 好 地 利用 信息 爆炸 时 代 产 生 的 海量 数 
据 为 管理 服务 和 利用 数据 创造 财富 是 不 可 回避 的 命题 。 成 本 领先 战略 、 差 异化 战略 、 集 
中 化 战略 是 企业 在 市 场 竞争 中 可 以 选取 的 三 大 战略 。 在 信息 大 爆炸 时 代 ， 第 四 种 竞争 战 
略 一 一 大 数据 战略 成 为 原 三 大 竞争 战略 的 支撑 ， 其 将 改变 企业 决策 、 价 值 创 造 和 价值 实 
现 的 方式 ， 如 图 5-2 所 示 。 管 理 决策 日 益 基于 数据 和 分 析 而 作出 ， 而 并 非 基 于 经 验 和 直 
觉 ， 这 对 企业 正确 地 制定 发 展 计划 与 合理 安排 企业 资源 有 重要 的 意义 。 
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成 本 领 差异 化 集中 化 
先 战略 


战略 战略 
图 5-2 大 数据 战略 支撑 传统 三 大 竞争 战略 


从 上 面 的 案例 可 以 看 出 ， 对 航空 服务 业 来 说 ， 时 间 的 精准 就 是 优质 的 服务 ， 尤 其 是 
航班 抵达 时 间 精 准 ， 这 正好 应 了 大 数据 战略 的 典型 特点 一 一 预测 变 得 更 为 精确 。 


5.3.2 【案例 】 国 药 集团 打造 全 方位 的 管理 模式 


早 在 2007 年 ， 中 国医 药 集团 ( 以 下 简称 “国药 集团 ”) 便 启动 了 大 数据 商业 智能 的 
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建设 ， 将 集团 的 运营 管理 带 入 精细 化 管理 的 新 时 代 。 

国药 集团 在 10 余年 的 发 展 历程 中 ， 在 原 医药 批发 站 的 基础 上 一 路 并 购 ， 成 就 了 今 
天 拥有 十 大 主 营业 务 板块 的 规模 最 大 的 医药 企业 集团 。 与 国药 集团 自身 不 断 并 购 重 组 壮 
大 的 路 径 相 似 ， 集 团 的 信息 化 建设 也 经 历 了 不 断 演 进 的 过 程 ， 最 终 形成 了 清晰 的 信息 化 
战略 。 国 药 集团 的 信息 化 标准 框架 体系 如 图 5-3 所 示 。 
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图 5-3 国药 集团 的 信息 化 标准 框架 体系 


国药 集团 正在 全 力 推进 集团 4 大 平台 一 一 分 销 物流 一 体 化 营运 平台 、 产 学 研一 体 化 
产业 平台 、 国 际 化 经 营 一 体 化 平台 、 高 效 管 控 与 融合 协同 一 体 化 平台 的 全 面 建设 ， 依 托 
集团 4 大 平台 协同 运作 ， 促 进 集团 10 个 核心 业务 一 一 医药 分 销 及 物流 配送 、 医 药 零售 、 
生物 制药 、 化 学 制药 、 现 代 中 药 、 医 疗 器 械 、 医 药 进出 口 及 海外 实业 、 化 学 试剂 和 诊断 
试剂 、 医 药 科 研 和 设计 、 医 药 会 展 的 全 面 发 展 ， 构 成 了 一 个 完整 的 中 央企 业 医药 健康 产 
业 平 台 ， 实 现 了 规模 效益 ， 推 动 业绩 高 速 增长 。 

首先 ， 国 药 集团 要 实现 一 体 化 运营 ， 对 下 属 二 级 和 三 级 子 公司 进行 全 面 的 管控 ， 及 
时 了 解 子 公司 的 运营 、 市 场 以 及 风险 状况 , 就 必须 对 子 公 司 上 百 个 系统 的 数据 进行 整合 。 
只 有 将 各 异 构 的 系统 整合 到 统一 的 平台 上 才能 形成 集团 式 的 管控 和 运营 ， 这 种 整合 必须 
通过 BI 去 实现 。 

另外 ,国药 集团 还 专门 成 立 了 运营 管理 部 , 借助 BI 系统 对 二 级 、 三 级 企业 的 经 营 管 
理 指标 进行 分 析 ， 从 而 优化 运营 管理 。 在 BI 系统 建设 的 过 程 中 , 国药 集团 实现 了 企业 管 
理 的 精细 化 ， 业 务 和 数据 的 标准 化 。 在 业务 升级 过 程 中 ， 将 标准 嵌入 ERP 实现 循序 渐 
进 地 融合 。 目 前 ， 国 药 集团 还 会 将 主 数据 管理 系统 、BI 和 ERP 集成 到 同一 个 信息 平台 ， 
实现 三 个 平台 的 互动 ， 使 BI 产生 的 数据 更 加 完整 、 准 确 、 及 时 。 
同时 ， 国 药 集团 CIO 雷 万 云 博 士 还 指出 :“ 云 计算 对 于 企业 更 多 地 将 会 发 挥 行动 指 
南 的 作用 。 在 信息 化 建设 中 , 需要 将 云 计算 作为 最 终 的 目标 ,并且 最 大 限度 地 挖掘 IT 的 


价值 ， 以 真正 引领 业务 的 发 展 。” 

这 样 的 信息 化 思路 ， 也 为 集团 的 信息 化 建设 节约 了 大 量 资金 。 仅 在 2007 年 ， 在 国 
资 委 信息 化 测评 中 ， 国 药 集团 排名 第 28 位 ， 但 投资 额 却 在 100 位 之 后 ， 单 项 测评 中 系 
统 集成 的 方法 论 更 是 排名 第 一 。 
同时 ， 主 数据 管理 系统 也 作为 进行 业务 规划 的 重要 参考 依据 ， 减 少 业务 规划 过 程 中 
不 必要 的 资源 浪费 ， 使 业务 结构 更 加 优化 。 例 如 ， 主 数据 管理 系统 在 2008 年 “5.12” 
抗震 救灾 医药 物资 调拨 中 发 挥 了 重要 作用 ， 通 过 该 系统 工作 人 员 能 在 第 一 时 间 内 了 解 全 
集团 医药 储备 库存 情况 ， 及 时 保障 中 央 向 灾区 医药 调拨 , 完成 3 亿 共 800 吨 的 医药 物资 
调拨 任务 ， 受 到 国务 院 、 发 改 委 、 卫 生 部 的 表扬 。 

【 案例 解析 }， 通 过 主 数据 项 目 和 Bl 项 目 ， 能 够 实时 了 解 全 面 的 各 级 业务 部 门 经营 
状况 以 及 管理 统计 分 析 数 据 ， 实 现 了 集团 对 应 收 账 款 的 及 时 管理 和 监控 ， 有 效 防 范 集团 
风险 ， 为 国药 集团 管理 层 进行 科学 决策 提供 了 重要 参考 依据 ， 提 高 了 决策 效率 ， 提 升 了 
决策 质量 。 

笔者 觉得 ， 国 药 集团 的 精细 化 管理 同时 也 是 一 种 理念 ， 更 是 一 种 文化 。 精 细 化 管理 
是 源 于 发 达 国家 的 一 种 企业 管理 理念 ， 它 是 社会 分 工 的 精细 化 以 及 服务 质量 的 精细 化 对 
现代 管理 的 必然 要 求 ， 是 建立 在 常规 管理 的 基础 上 ， 并 将 常规 管理 引 向 深入 的 基本 思想 
和 管理 模式 ， 是 一 种 以 最 大 限度 地 减少 管理 所 占用 的 资源 和 降低 管理 成 本 为 主要 目标 的 
管理 方式 。 

现代 管理 学 认为 ， 科 学 化 管理 有 3 个 层次 : 第 一 个 层次 是 规范 化 ， 第 二 个 层次 是 精 
细 化 ， 第 三 个 层次 是 个 性 化 。 显 然 ， 大 数据 分 析 可 以 帮助 企业 完成 精细 化 管理 到 个 性 化 
营销 的 过 渡 。 


5.3.3 【案例 ] 迪士尼 乐园 用 大 数据 提升 游客 乐趣 


迪士尼 是 孩子 和 童心 末 泥 的 成 人 的 天 堂 ， 每 个 乐园 里 都 有 100 多 个 项 目 ， 但 每 一 个 
项 目前 等 待 的 排队 人 群 常常 令 人 兴致 大 减 。 为 此 ， 迪 士 尼 公司 使 用 10 多 年 的 历史 数据 ， 
结合 天 气 、 旅 游 等 数据 ， 预 测 每 一 条 队伍 每 一 天 每 一 小 时 所 需 的 排队 时 间 ， 游 客 可 以 参 
考 这 个 分 析 结 果 安 排 自己 在 园区 内 的 游览 次 序 。 另 外 , 迪士尼 公司 还 收集 了 Twitter 数据 
更 新 每 一 条 队伍 的 排队 等 候 时 间 ， 来 处 理 突 发 的 情况 。 

迪士尼 公司 的 大 数据 策略 ， 使 每 位 游客 平均 每 人 节省 4 个 小 时 ， 从 而 提升 了 游客 们 
进 园 游玩 的 乐趣 。 

在 大 数据 战略 上 取得 初次 成 功 后 ， 迪 士 尼 公园 又 准备 投资 数 十 亿美 元 打造 度假 计划 
系统 MyMagic, 其 核心 支撑 元 素 是 它 对 每 年 到 主题 公园 游玩 的 几 千 万 旅客 的 数据 进行 收 
集 的 能 力 ， 这 种 技术 是 前 所 未 有 的 。 
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MyMagic 系统 将 使 迪士尼 能 够 追踪 游客 去 了 乐园 里 的 哪些 地 方 、 如 何 进行 消费 、 在 
什么 时 候 用 餐 和 喜欢 吃 什么 。 过 士 尼 计划 用 这 些 信 息 制 定 出 更 细致 和 更 个 性 化 的 营销 方 
案 , 这 样 一 来 , 该 度假 公园 针对 每 位 潜在 用 户 所 传达 的 信息 和 所 制定 的 价格 都 是 不 同 的 。 

MyMagic 系统 的 核心 技术 是 腕 带 ， 官 方 命名 为 “MagicBands”( 魔法 带 )， 其 中 获 
有 无 线 射频 识别 芯片 ， 其 能 与 遍布 迪士尼 乐园 的 无 线 射频 扫描 设备 进行 通信 ， 如 图 5-4 
所 示 。 有 些 短 距 数据 读 取 器 安装 在 明显 的 位 置 ， 在 购买 纪念 品 或 打开 酒店 房间 时 ， 游 客 
可 以 在 上 面 挥 一 挥 自己 的 腕 带 。 也 有 一 些 长 距 的 读 取 器 安装 在 隐蔽 位 置 ， 游 客 无 需 进行 
任何 操作 ， 这 些 设备 也 能 读 取 数据 。 


图 5-4 MyMagic 系统 的 核心 技术 一 一 MagicBands 


迪士尼 将 MyMagic 的 分 析 功 能 视 为 第 二 个 增收 工具 。 首 要 增收 工具 是 鼓励 游客 提前 
安排 好 行程 细节 ， 以 使 他 们 在 公园 里 呆 更 长 时 间 以 及 通过 更 便捷 的 非 现金 支付 手段 来 进 
行 消费 。 例 如 ， 某 个 园区 的 一 家 餐厅 在 某 个 时 间 段 有 开店 仪式 ， 那 迪士尼 就 可 以 通过 
MyMagic 系统 知道 哪些 在 这 个 园区 的 游客 在 该 时 间 段 没有 预订 “FastPass” 服 务 ， 然 后 
向 这 些 游客 发 送 该 餐厅 的 即时 折扣 。 

【 案例 解析 ]， 母 庸 置疑， 迪士尼 是 一 个 巨大 的 娱乐 公司 ， 但 是 当 它 涉及 大 数据 平 
台 ， 这 位 娱乐 巨头 看 起 来 更 像 是 一 个 初创 公司 。 很 多 小 公司 ， 依 靠 坚 强 的 意志 和 不 凡 的 
智慧 ， 凭 借 一 个 小 小 的 团队 ， 使 用 Hadoop、NoSQL 数据 库 和 其 他 开源 技术 ， 完 全 能 够 
创造 出 一 个 特有 的 大 数据 平台 。 

迪士尼 能 否 有 效 地 通过 收集 和 利用 数据 来 获 利 ， 很 大 程度 上 决定 了 该 公司 在 
MyMagic 项 目 投入 近 10 亿美 元 是 否 值得 ， 以 及 它 能 否 成 为 该 公司 的 主题 公园 和 度假 区 
业务 ( 年 收入 近 130 亿美 元 ) 的 增长 引擎 。 

从 迪士尼 的 案例 中 可 以 看 出 ， 基 于 数据 的 竞争 将 提高 组 织 的 日 常 运营 效率 ， 找 出 可 
以 省 钱 的 地 方 和 机 会 ;基于 数据 的 分 析 结 果 可 提高 决策 速度 和 质量 、 增 强 预测 能 力 ， 从 
而 更 好 地 理解 客户 和 市 场 需要 。 因 此 ， 企 业 要 学 会 计算 数据 的 投资 回报 一 一 数据 价值 和 
数据 成 本 的 比值 。 笔 者 可 以 毫 不 忌讳 地 说 ， 降 低 数据 成 本 和 增加 优质 数据 价值 都 是 企业 
管理 者 要 关心 的 方向 。 


5.3.4 【 秦 例 】Farmeron 用 大 数据 促成 农业 增产 


农业 市 场 的 潜力 是 巨大 的 ， 据 国外 调查 统计 可 知 ， 全 球 范围 内 中 型 企业 规模 农场 的 
市 场 价值 已 经 达到 120 亿美 元 , 但 截止 至 今 ， 这 些 农场 仍 大 多 依照 的 是 传统 陈旧 的 运行 
系统 。 

Farmeron 是 美国 加 州 山 景 城 的 一 家 创业 公司 ， Farmeron 看 到 了 传统 农业 生产 管理 
中 的 诸多 不 足 ， 试图 颠覆 传统 ,成 为 世界 上 首 批 农业 SaaS ( Software-as-a-service， 基 
于 互联 网 提供 软件 服务 的 软件 应 用 模式 ) 公 司 之 一 。Farmeron 开发 了 一 款 类 似 于 Google 
Analytics 的 数据 跟踪 和 分 析 服 务 产品 , 旨 在 帮助 全 世界 农民 在 线 管理 其 产品 信息 , 使 用 
统计 方法 进行 自动 农场 运作 状况 分 析 ， 帮 助 农民 提高 工作 效率 。 

Farmeron 打造 了 一 个 分 析 工 具 包 ， 农 民 可 在 其 网 站 上 利用 这 套 工 具 ， 记 录 和 跟踪 
自己 饲养 的 动物 的 情况 ( 饲料 库存 、 消 耗 和 花费 ， 每 头 动物 的 出 生 、 死 亡 、 产 奶 等 信息 ， 
还 有 农场 的 收 支 信息 )。 就 像 我 们 在 Facebook 或 者 Twitter 上 有 一 个 主页 一 样 ， 每 个 动 
物 也 都 有 一 个 自己 的 页 面 ， 这 可 以 让 农场 主 不 仅 看 到 整个 农场 的 表现 ， 还 可 以 看 到 每 一 
只 动物 的 情况 ， 如 图 5-5 所 示 。 
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图 5-5 农场 管理 工具 Web 页 面 


Farmeron 的 创始 人 马 提 亚 .可 匹克 ( Matija Kopié ) 来 自 克 罗 地 亚 一 个 农场 主 家 庭 ， 
不 过 他 最 终 与 父母 走 上 不 同 的 道路 ， 成 为 一 名 程序 员 ， 他 希望 用 一 种 现代 化 的 方式 来 减 
轻 农场 主 的 工作 负担 。 多 数 软件 创业 公司 的 创始 人 整 日 对 着 电脑 测试 代码 ， 马 提 亚 .可 
匹克 却 常 在 畜 棚 度 日 。 

马 提 亚 。 可 匹克 专注 于 使 分 析 报告 和 操作 界面 便捷 易 用 ， 像 个 人 理财 网 站 Mint 一 
样 省 心 。 过 去 一 位 奶牛 场 经 理 需 要 花 几 天 时 间 来 输入 和 分 析 几 个 月 来 的 奶牛 进食 与 医疗 
数据 ， 如 今 结论 立 等 可 取 。 
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少年 时 期 的 马 提 亚 .可 匹克 在 制作 奶 酷 上 很 有 一 套 ， 但 这 一 兴趣 并 未 影响 他 的 另 一 
项 激情 一 一 到 萨 格 勒 布 大 学 攻读 计算 机 科学 。 如 今 ， 他 带 着 自己 的 创业 公司 Farmeron 
回 到 了 这 片 土 地 。 

自 2011 年 11 月 成 立 至 今 , Farmeron 已 在 14 个 国家 建立 起 农业 管理 平台 , 目前 已 
有 超过 600 家 企业 化 农场 使 用 该 产品 ， 其 中 45% 都 位 于 北美 ， 最 大 的 一 家 拥有 4000 头 
牲畜 。2013 年 5 月 , Farmeron 又 与 在 30 多 个 国家 开展 业务 的 大 型 德国 设备 商 Neelsen 
Agrar 达成 协议 ， 由 后 者 向 客户 销售 Farmeron 软件 。 另 外 ，Farmeron 已 经 在 其 发 起 的 
种 子 轮 融 资中 获得 了 140 万 美元 的 投资 资金 。 

一 位 管理 着 一 个 拥有 近 400 只 牛 的 奶牛 场 兽医 表示 ，Farmeron 帮助 他 满足 了 动物 
信息 追踪 和 和 销售 方面 的 需求 ， 该 工具 还 有 助 于 及 时 向 保险 公司 汇报 牲畜 死亡 情况 。 兽 医 
还 用 Farmeron 管理 日 常 饲料 配给 及 饲料 采购 ， 并 不 断 进行 微调 ， 这 相当 重要 ， 因 为 饲 
料 成 本 占 到 了 他 这 个 奶牛 场 总 成 本 的 70%。" 只 要 能 省 一 点 钱 ， 我 们 都 努力 去 省 ,” 兽 医 
表示 ,“ 我 经 常 能 够 看 到 饲料 中 某 个 成 分 不 符合 计划 ， 从 而 可 以 迅速 作出 反应 。 

【案例 解析 }， 农 民 们 一 向 拥有 海量 信息 ， 但 他 们 既 没有 可 用 于 分 析 的 工具 ， 也 没 
有 接受 过 相关 训练 。 在 本 案例 中 ， 由 于 Farmeron 从 很 多 农场 那里 收集 数据 ， 它 可 以 就 
何 种 方法 有 效 得 出 适用 范围 很 广 的 结论 ， 并 建议 如 何 提高 产量 。Farmeron 帮 农 民 把 支 
离 破碎 的 农业 生产 记录 整理 到 一 起 ， 用 先进 的 分 析 工具 和 报告 ， 帮 农民 达成 农业 生产 计 
划 。 目 前 ， 世 界 人 口 总 数 已 突破 70 亿 ， 这 也 就 迫使 农业 必须 变 得 更 加 高 效 ， 而 这 也 正 
好 能 够 促进 Farmeron 的 发 展 。 

使 用 大 数据 分 析 ， 还 可 以 帮助 农场 针对 市 场 上 竞争 对 手 的 市 场 策略 进行 实时 的 反应 
并 调整 价格 。 笔 者 认为 ，Farmeron 可 以 使 用 大 数据 来 为 农场 提供 个 性 化 的 在 线 服务 ， 
满足 个 性 化 的 需求 ， 这 样 销售 额 和 利润 的 增长 会 更 加 见效 。 


5.3.5 【案例 】 西 尔 斯 着 眼 于 大 数据 以 降低 成 本 


全 球 500 强 企业 之 一 的 西 尔 斯 控股 公司 ( Sears Holding )， 这 家 几乎 与 西方 现代 零 
售 业 同龄 的 老 古 董 公 司 ， 曾 经 雄 居 美 国 零售 业 榜 首 近 一 个 世纪 。 但 是 ， 最 近 几 年 ， 这 个 
零售 巨头 的 日 子 却 是 江河 日 下 ， 前 途 不 容 乐 观 。 

有 两 方面 的 原因 导致 西 尔 斯 的 规模 下 滑 : 一 是 西 尔 斯 公司 近 几 年 一 直 在 大 规模 地 关 
店 ， 但 同时 也 有 新 店 开张 ， 而 且 整 体 门店 数量 有 波幅 的 上 涨 ; 第 二 点 ， 也 是 让 西 尔 斯 更 
绝望 的 ， 就 是 其 门店 可 比 销售 负增长 ， 而 且 近 几 年 全 部 出 现 负增长 。 

为 了 改变 企业 管理 方式 ， 抑 制 不 良 形势 的 继续 发 展 ， 西 尔 斯 控股 公司 首席 信息 官 
Keith Sherwell 近期 为 该 零售 企业 规划 了 一 幅 全 面 的 技术 革新 蓝图 ， 而 这 幅 蓝 图 要 想 成 
为 现实 ， 则 要 依赖 于 Hadoop、 开 源 以 及 进一步 削减 管理 维护 成 本 。 

西 尔 斯 公司 收集 其 专 售 的 三 个 品牌 一 一 Sears、Craftsman、Lands’End 的 客户 、 产 
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品 以 及 销售 数据 ， 从 这 些 海量 信息 中 挖掘 价值 。 大 数据 潜在 价值 巨大 ， 但 挖掘 和 分 析 这 
些 数据 的 困难 也 很 大 。 
> “数据 量 庞大 : 首先 需要 对 这 些 数 据 进行 超大 规模 分 析 ， 且 这 些 数据 分 散在 不 同 品 
牌 的 数据 库 与 数据 仓库 中 ， 不 仅 数量 庞大 而 且 支离破碎 。 
> ”分 析 时 间 长 : 西 尔 斯 公司 需要 8 周 时 间 才 能 制定 出 个 性 化 的 销售 方案 ， 但 往往 做 
出 来 的 时 候 ， 它 已 不 再 是 最 佳 方案 了 。 

西 尔 斯 公司 首席 信息 官 Keith Sherwell 近期 作 了 一 份 关于 大 型 零售 集团 企业 的 技术 
革新 计划 。Sherwell 的 规划 思路 来 自 于 一 次 由 Cowen 公司 主办 的 关于 大 数据 的 公开 会 
议 。 显 然 ，Cowen 公司 的 分 析 师 Peter Goldmacher 将 大 数据 的 发 展 规划 草图 有 效 地 传 
达 给 了 Sherwell， 并 被 带 进 了 西 尔 斯 公司 。 

此 后 ， 西 尔 斯 公司 开始 使 用 集群 ( cluster ) 收集 来 自 不 同 品牌 的 数据 ， 并 在 集群 上 
直接 分 析 数 据 ， 而 不 是 像 以 前 那样 先 存 入 数据 仓库 。 为 了 避免 浪费 时 间 ， 西 尔 斯 公司 先 
把 来 自 各 处 的 数据 分 析 之 后 再 做 合并 ， 这 种 调整 让 公司 的 推销 方案 变 得 更 快 、 更 精准 。 


专家 提醒 
简单 地 说 ， 集 群 ( cluster ) 就 是 一 组 计算 机 ， 它 们 作为 一 个 整体 向 用 户 提 供 一 组 网 络 资 
源 。 其 中 ， 单 个 的 计算 机 系统 就 是 集群 的 节点 (node )。 


【 案例 解析 }， 最 好 的 大 数据 供应 商 ， 是 那些 能 将 数据 以 最 合适 的 形式 呈现 出 来 的 
供应 商 。 从 本 案例 可 见 ， 西 尔 斯 公司 力求 拥有 零售 行业 中 规模 最 大 的 Hadoop 集群 ， 该 
企业 在 开源 上 下 了 很 大 的 赌注 。 

传统 的 企业 管理 流程 是 出 现 问题 、 罗 辑 分 析 、 找 出 因果 关系 、 提 出 解决 方案 ， 从 而 
使 问题 企业 成 为 优秀 企业 ， 这 是 逆向 思维 模式 。 大 数据 竞争 战略 咨询 流程 是 收集 数据 、 
量化 分 析 、 找 出 相互 关系 、 提 出 优化 方案 ， 从 而 使 企业 从 优秀 到 卓越 ， 这 是 正 向 思维 模 
式 ， 如 图 5-6 所 示 。 
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笔者 认为 西 尔 斯 公司 不 是 星星 点 点 的 个 案 ， 而 是 代表 了 整个 商业 的 一 次 根本 性 经 ; 
转型 。 笔 者 确信 ， 大 数据 运用 带 来 的 这 一 转型 已 经 触及 了 商业 活动 的 方方面面 ， 没 有 谁 
能 置身 其 外 。 


5.4 能源 管 理 中 的 大 数 氟 分析 应 用 案 倒 


众所周知 ， 自 从 三 次 科技 革命 以 来 ， 能 源 成 为 了 国家 经 济 的 命脉 。 然 而 ， 地 球 上 的 
能 源 是 有 限 的 ， 于 是 在 各 个 大 国之 间 引 发 了 一 些 与 石油 有 关 或 纯粹 是 为 了 石油 的 战争 。 
为 了 争夺 对 世界 资源 与 能 源 的 控制 权 ， 导 致 了 两 场 世界 大 战 的 爆发 。 

> 第 一 次 世界 大 战 中 ，31 个 国家 15 亿 人 口 卷 入 了 战争 ， 伤 亡 人 数 达 3100 万 ,其 中 

死亡 1000 万 人 ， 军 费 支 出 与 战争 损失 共计 3877 亿美 元 。 

> 第 二 次 世界 大 战 中 ，7 年 的 战争 中 有 60 个 国家 参与 ， 总 伤亡 人 数 达 9000 万 人 ， 

死亡 了 5000 万 人 ， 直 接 军费 支出 1117 亿美 元 ， 物 质 损失 3 万 亿美 元 。 第 二 次 世 
界 大 战 后 美国 和 苏联 两 个 超级 大 国 为 了 争夺 资源 与 能 源 展开 了 40 多 年 的 冷战 。 

如 今 , 对 中 东 石 油 、 南 非 的 黄金 和 人 金刚石、 扎 伊 尔 的 铜 矿 等 资源 的 争夺 战 还 在 延续 ， 
可 以 说 ， 能 源 战争 将 愈演愈烈 。 能 源 费 用 与 日 俱 增 ， 这 促使 很 多 商业 机 构 和 行业 企业 开 
始 考虑 通过 技术 节省 能 源 开支 。 要 想 准确 预测 能 源 消耗 并 采取 及 时 有 效 的 节能 措施 ， 需 
要 进行 大 量 的 数据 分 析 。 本 节 主 要 介绍 大 数据 分 析 在 能 源 管理 中 的 应 用 案例 ， 希 望 对 读 
者 有 一 定 的 启发 和 学 习 价值 。 


5.4.1 【案例 】 用 “大 数据 ”预测 风电 和 太阳 能 


近日 ，IBM 宣布 了 一 项 先进 的 结合 了 大 数据 分 析 和 天 气 建 模 技术 的 能 源 电力 行业 先 
进 解决 方案 ， 将 其 命名 为 “混合 可 再 生 能 源 预测 ”( HyRef )， 旨 在 帮助 全 世界 电力 能 源 
行业 ， 提 高 可 再 生 能 源 的 可 靠 性 。 

HyRef 技术 采用 了 天 气 建 模 能 力 、 高 级 云 成 像 技术 和 云图 拍摄 机 来 追踪 云层 运动 ， 
同时 使 用 安装 在 涡轮 上 的 传感器 对 风速 、 温 度 和 风向 进行 监测 ， 如 图 5-7 所 示 。 通 过 与 
分 析 技 术 相 结合 ， 这 个 以 数据 同化 ( Data-Assimilation ) 为 基础 的 解决 方案 ， 能 够 为 风 
电厂 提供 未 来 一 个 月 区 域内 的 精准 天 气 预测 或 未 来 十 五 分 钟 的 风力 增 量 。 

另外 ，HyRef 可 以 通过 整合 这 些 当 地 的 天 气 预报 情况 ， 预 测 每 个 单独 的 风力 涡轮 机 
的 性 能 ， 进 而 估算 可 产生 的 发 电量 。HyRef 充分 利用 大 数据 的 洞察 力 ， 使 能 源 电力 公司 
可 更 好 地 管理 风能 和 太阳 能 的 多 变 特性 ， 更 准确 地 预测 发 电量 ， 并 且 使 其 可 以 被 复位 导 
向 到 电网 或 储存 。 同 时 ，HyRef 也 可 使 能 源 组 织 更 好 地 同时 使 用 可 再 生 能 源 与 其 他 传统 
能 源 ， 例 如 煤炭 和 天 然 气 。 

HyRef 由 Deep Thunder 等 创新 技术 发 展 而 来 ， 是 气候 建 模 技术 领域 内 的 一 项 高 新 
成 果 。 由 IBM 所 开发 的 Deep Thunder 技术 可 为 特定 区 域内 的 气候 状况 提供 高 清 微型 预 
测 ， 覆 盖 范 围 可 从 单一 城市 扩大 至 整个 省 份 ， 并 可 达到 平方 公里 的 计算 精确 度 。Deep 
Thunder 与 商业 数据 结合 后 ， 可 为 商业 用 户 和 政府 提供 定制 化 服务 ， 更 改 路 线 并 加 装 设 


D> 


机 器 旦 网 潭 于 . . 漠 溃 


| | 六 妆 注 内 瑟 .上 扰 路 俐 


轩 


备 ， 来 降低 重大 天 气 事件 所 带 来 的 影响 ， 从 而 降低 成 本 、 提 高 服务 质量 ， 甚 至 是 避免 人 
身 危险 ， 将 重大 气象 引发 的 意外 事件 几率 降 到 最 小 。 


HyRef 


图 5-7 HyRef 的 基本 原理 


【案例 解析 ]， 在 本 案例 中 ， 使 用 分 析 结 果 并 有 效 利用 大 数据 ， 将 可 使 电力 公司 有 
能 力 应 对 可 再 生 能 源 的 间断 特性 并 对 太阳 能 和 风能 的 产量 做 出 合理 预测 ， 这 是 一 种 前 所 
未 有 的 创新 模式 。HyRef 使 能 源 电力 公司 可 将 更 多 的 可 再 生 能 源 并 入 电网 ， 减 少 碳 排放 
量 ， 给 消费 者 与 企业 提供 更 多 的 清洁 能 源 。 

目前 ， 全 球 的 能 源 公 司 都 在 使 用 一 系列 策略 将 可 再 生 能 源 集成 到 各 自 的 系统 中 ， 以 
期 在 2025 年 前 达到 可 再 生 能 源 在 整体 能 源 投 资 组 合 中 25% 的 占有 率 的 基本 目标 。 笔 者 
可 以 预见 ， 不 久 的 将 来 ， 随 着 工业 化 和 信息 化 的 融合 ， 大 数据 将 深刻 地 影响 能 源 行 业 和 
能 源 企 业 。 

专家 提醒 

据悉， 中 国 国家 电网 (SGCC ) 所 属 的 国家 慢 北 电力 有 限 公司 (SG-JBEPC )， 正 在 使 用 
HyRef 整合 可 再 生 能 源 并 将 其 并 入 所 属 电 网 中 ,该 项 目 有 助 于 实现 中 国 “ 减 少 对 化 石 燃料 依 
赖 ”的 5 年 计划 目标 。 可 见 ， 我 国 的 能 源 企业 也 在 逐步 实现 数据 管理 化 。 


5.4.2 【案例 】 电力 增长 情况 反映 宏观 经 济 形势 


当今 社会 ， 电 气 化 水 平 的 提高 使 得 各 种 经 济 活动 几乎 都 离 不 开 电 ， 电 力 是 国民 经 济 
发 展 中 重要 的 生产 资料 及 人 民生 活 中 必 不 可 少 的 生活 资料 ， 与 经 济 密切 相关 。 用 电量 的 
变化 及 电力 消费 结构 的 变化 也 反映 出 经 济 运行 及 结构 的 变化 。 电 力行 业 专家 表示 ， 全 国 
用 电量 与 GDP 关联 极其 密切 ， 大 约 是 1:1.2 的 关系 ,用 电量 的 持续 下 滑 意味 着 经 济 增长 
乏力 ， 用 电量 持续 上 涨 意味 着 经 济 处 于 上 行 通道 、 发 展 势头 良好 。 

因此 ， 在 官方 GDP 统计 数据 公布 之 前 ， 人 们 寄 希 望 于 通过 全 社会 用 电量 的 变化 来 
观察 经 济 走势 。 针 对 这 一 要 求 ， 华 东 电 网 有 限 公司 ( 以 下 简称 “华东 电网 ”) 投 运 了 一 
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套 应 用 BI 的 调度 生产 统计 分 析 系 统 ， 应 用 该 系统 可 以 看 到 累计 到 当天 的 年 用 电量 情况 ， 
同比 、 环 比 也 一 目 了 然 。 这 也 就 意味 着 ， 人 们 可 以 看 到 累计 到 前 一 天 的 GDP 同比 、 环 
比 情况 。 如 表 5-4 所 示 ， 为 华东 电网 近年 来 的 大 数据 部 署 方案 。 


表 5-4 华东 电网 近年 来 的 大 数据 部 署 方案 
时 间 | 大 数据 部 署 方案 具体 内 容 


搭建 电力 市 
场 分 析 系 统 


华东 电网 首先 在 电网 调度 中 心 部 门 、 交 易 中 心 部 门 进行 部 门 级 试 
探 性 应 用 。 调度 部 门 是 一 个 数据 密集 型 的 部 门 ， 如 何 有 效 利用 这 
笔 宝藏 是 门 艺 术 

伴随 着 国家 电网 SG186 工程 的 全 面 实 施 ， 以 及 智能 电网 的 探索 
建立 数据 性 工作 开展 ， 华 东 电网 开始 深化 数据 集成 标准 的 研究 ， 形 成 企业 
集成 平台 内 部 的 信息 集成 标准 ， 并 在 此 基础 上 建立 集成 平台 ， 完 成 了 数据 
集成 的 工作 


建立 企业 华东 电网 建立 了 全 公司 的 企业 级 数据 仓库 , 加 大 了 集成 的 数据 信 
2009 级 数据 仓库 息 范围 , 并 在 这 个 企业 级 数据 仓库 的 基础 上 ,完成 了 一 部 分 面向 


企业 管理 层 的 BI 应 用 开发 

在 华东 电网 的 各 个 信息 系统 中 ， 传 统 报表 和 应 用 BI 的 数据 分 析 
横向 拓展 是 并 存 的 ， 前 者 的 普遍 应 用 在 生产 运营 中 发 挥 了 很 好 的 作用 ,后 
大 数据 应 用 “| 者 则 提供 了 新 的 视角 和 实现 手段 。 在 未 来 的 一 段 时 间 内 ， 华 东 电 
网 将 会 把 BI 应 用 进一步 扩展 到 企业 的 其 他 业务 部 门 


2008 


目前 


【 案例 解析 】， 通过 电力 增长 情况 来 发 现 经 济 运行 的 一 些 情况 ， 及 时 预测 宏观 经 济 
形势 ， 这 应 该 是 在 所 有 经 济 数据 中 ， 最 具 实 时 性 的 指标 之 一 了 。 

其 实 ， 对 企业 管理 层 而 言 ， 大 数据 的 应 用 主要 体现 在 战略 导向 上 。 在 本 案例 中 ， 华 
东 电 网 将 大 数据 与 其 他 可 视 化 手段 进行 了 有 机 组 合 ， 以 企业 战略 层 最 为 关注 的 电网 规 
划 、 电 网 建设 、 同 业 对 标 等 指标 为 导向 ， 打 造 了 面向 经 营 管理 层 的 “全 景 可 视 化 辅助 决 
策 分 析 系 统 "。 另 外 ， 统 一 信息 平台 和 全 景 可 视 化 辅助 决策 分 析 系统 是 同步 展开 的 ， 前 
者 从 下 往 上 ， 后 者 从 上 往 下 ， 共 同 满足 不 同 用 户 的 数据 需求 。 


专家 提醒 
需要 注意 的 是 ， 用 电量 数据 并 不 能 简单 代替 GDP， 因 为 用 电量 数据 的 波动 性 强 于 GDP， 
经 济 增长 处 于 高 位 的 时 期 ， 用 电量 增 速 大 于 GDP 增 速 ; 当 经 济 处 于 下 行 周期 时 ， 用 电量 
增 速 下 降 的 幅度 会 大 于 GDP 增 速 下 降 的 幅度 。 


5.4.3 【案例 】 石 油 公 司 用 大 数据 追求 最 大 利益 


美国 阿美 拉 达 赤 斯 公司 ( Amerada Hess Corp，Hess ) 是 一 家 综合 石油 公司 ， 总 部 


设 在 美国 纽约 ， 主 要 从 事 勘探 、 生 产 、 购 买 及 销售 原油 和 和 天然气 ， 勘 探 和 生产 活动 遍布 
美国 、 英 国 、 挪 威 、 丹 麦 、 印 度 尼 西 亚 、 泰 国 及 其 他 国家 。 

Hess 公司 的 CIO Gary Lensing 表示 :“ 我 们 做 的 任何 事 都 是 数据 说 了 算 ; 价值 的 
量化 亦 全 仰赖 资料 。” 在 过 去 几 年 里 ，Hess 不 断 地 致力 于 建立 基于 大 数据 分 析 平 台 的 BI 
系统 ， 以 尽 可 能 地 实时 追踪 从 勘探 到 生产 这 条 价值 链 上 的 所 有 数据 。 

Hess 公司 的 BI 系统 旨 在 能 够 查看 Hess 在 挪威 、 丹 麦 、 英 国 、 美 国 、 泰 国 以 及 非 
洲 各 地 所 有 资产 的 活动 。 例 如 ， 非 洲 赤道 几内亚 的 4 座 油田 产量 ， 今 天 是 否 达 到 预期 ? 
美国 新 泽 西 州 的 炼油 厂 ， 是 否 已 用 最 大 产量 在 生产 ? 或 是 能 否 在 月 底 前 出 产 更 多 桶 石 
油 ? 某 个 时 间 点 内 ， 其 1370 家 的 加 油 站 销售 情况 如 何 ? 

财务 分 析 方 面 ，Hess 主要 是 运用 Hyperion 的 工具 进行 分 析 。 为 了 估计 他 们 的 油井 
可 以 出 产 多 少 石油 或 天 然 气 ,Hess 在 该 地 区 为 油田 地 形 开 发 了 一 套 模型 ,如 图 5-8 所 示 。 
为 了 查看 油井 生产 的 特征 ，Hess 运用 了 在 制药 公司 很 普遍 使 用 的 一 款 工具 一 一 Tibco 公 
司 的 Spotfire 产品 ， 让 分 析 人 员 可 以 通过 图 形 、 图 表 ， 以 及 其 他 图 像 来 显示 数据 ， 用 户 
于 其 中 查询 即 可 深入 分 析 这 些 数据 。 


5-8 油田 地 形 模型 


Hess 还 安装 了 OSlsoft 绩效 管理 软件 ， 用 于 收集 操作 上 面 的 资料 ， 例如， 用 来 衡量 
钻井 平台 与 储 油槽 的 运作 效率 如 何 。 同 时 ，Hess 每 天 都 通过 FTP 传输 、 接 收 其 合资 企 
业 上 载 的 绩效 报表 。 

今 ， 钻 井 平台 的 工作 人 员 能 够 与 公司 总 部 的 人 员 进行 实时 对 话 ， 并 且 处 理 同一 笔 
数据 。 例 如 ， 一 位 在 美国 德州 休斯敦 的 工程 师 ， 可 以 对 位 于 西非 地 区 的 钻井 活动 进行 监 
控 , 查看 钻头 外 入海 床 时 有 无 任何 异常 , 并 且 可 以 通过 卫星 传输 数据 给 休斯敦 的 工程 师 ， 
他 们 可 以 检视 此 可 视 化 的 数据 ， 然 后 发 送 电子 邮件 提出 如 何 调节 该 机 器 的 措施 。 

【 案例 解析 】]: 理论 上 来 说 ， 大 数据 平台 为 Hess 带 来 了 更 大 量 与 更 快速 的 产 出 ， 这 
意味 着 Hess 可 以 在 市 场 价格 高 涨 时 ， 更 快速 地 卖 出 更 多 的 原油 或 提炼 产品 。 

“石油 工业 是 信息 工业 ”， 很 少 有 其 他 工业 领域 像 石油 工业 这 样 更 依赖 于 数据 。 对 
油气 资源 的 认识 和 掌握 主要 通过 大 量 的 数据 来 实现 , “大 数据 ”往往 意味 着 “大 油气 ”， 
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通过 对 数据 的 挖掘 和 应 用 ， 可 以 提高 决策 的 准确 性 和 全 面 性 ， 实 现 新 的 油气 增产 。 就 像 
石油 、 矿 山 对 于 工业 革命 一 样 ， 大 数据 正在 成 为 信息 社会 最 重要 的 战略 资产 ， 散 发 出 令 
人 难以 抗拒 的 财富 气息 。 


5.4.4 【案例 】 大 数据 管理 更 准确 、 一 致 、 及 时 


农业 部 信息 中 心 是 国家 农业 部 直属 事业 单位 ， 负 责 承办 农业 部 网 站 ， 是 农业 部 的 信 
息 集散 中 枢 和 网 络 中 枢 ， 其 主要 任务 是 为 农业 部 和 党 中 央 、 国 务 院 进行 农业 决策 与 管理 
提供 信息 服务 ， 为 各 部 行政 机 关 提供 通信 、 网 络 和 信息 支持 ， 为 全 国 农业 系统 及 其 农 产 
品 生产 者 、 经 营 者 提供 信息 社会 化 服务 。 

为 了 更 好 地 利用 数据 资源 ， 农 业 部 信息 中 心 决定 建立 统一 的 数据 仓库 平台 ， 将 各 业 
务 系统 数据 进行 面向 分 析 的 整合 , 为 管理 人 员 提 供 更 准确 、 一致、 及 时 的 决策 支持 信息 。 
经 过 细致 的 考察 、 调 研 和 选 型 ， 农 业 部 信息 中 心 选择 了 CA 公司 的 数据 仓库 解决 方案 。 

专家 提醒 

CA 公司 (CA Technologies，CA ) 是 全 球 最 大 的 IT 管理 软件 公司 之 一 ， 其 专注 于 为 企 
业 整 合 和 简化 IT 管理 。CA 公司 创建 于 1976 年 ， 总 部 位 于 美国 纽约 长 岛 ， 服 务 于 全 球 140 
多 个 国家 的 客户 。 


CA 公司 是 全 球 领 先 的 IT 管理 软件 和 解决 方案 供应 商 , 其 产品 和 技术 涵盖 IT 的 所 有 
方面 ， 从 主机 到 分 布 式 系统 ， 从 虚拟 化 到 云 。 农 业 部 信息 中 心 的 CA 数据 仓库 项 目 可 以 
分 为 数据 仓库 的 设计 、 构 造 和 前 端 展现 3 个 阶段 ， 其中， 每 一 个 阶段 都 采用 了 不 同 的 工 
具 ， 如 表 5-5 所 示 。 


表 5-5 “农业 部 信息 中 心 的 CA 数据 仓库 项 目 流程 

流程 主要 功能 

第 一 阶段 用 户 需求 分 析 及 数据 仓库 模型 设计 

采用 CA 的 数据 转换 工具 Advantage Data Transformer， 支 持 各 
第 二 阶段 | 构造 数据 仓库 | 种 关系 数据 库 和 ODBC 数据 源 , 对 数据 进行 完整 的 抽取 、 映 射 、 
转换 ， 提 供 完善 的 编程 能 力 以 定制 复杂 的 转移 规则 


CleverPath OLAD 在 线 分 析 、 报 表 和 决策 支持 系统 


数据 仓库 前 端 


第 三 阶段 展现 


农业 部 信息 中 心 数据 仓库 项 目 包 括 以 下 软件 工具 和 模块 :数据 仓库 建 模 工 具 、 数 据 
仓库 数据 转移 工具 、 数 据 仓库 OLAD 分 析 及 前 端 展现 工具 、 决 策 支持 /高 级 领导 信息 系统 
构造 工具 、 生 产 报表 工具 。 

目前 ， 农 业 部 信息 中 心 数据 仓库 项 目 已 验收 成 功 并 正式 投入 运营 。CA 公司 数据 仓 


库 解 决 方案 对 农业 部 的 业务 管理 作用 是 显而易见 的 ， 农 业 部 信息 中 心 已 经 充分 利用 数据 
仓库 ， 建 立 起 农产品 贸易 数据 集 市 、 农 产品 价格 数据 集 市 和 气象 数据 集 市 ， 同 时 ， 定 期 
由 数据 仓库 自动 生成 农产品 贸易 信息 和 价格 信息 ， 在 互联 网 上 发 布 ， 为 广大 的 中 国 农业 
信息 网 用 户 提供 便利 的 信息 服务 。 

【 案例 解析 】， 在 本 案例 中 ， 农 业 部 信息 中 心 通 过 数据 仓库 系统 ， 可 以 使 各 级 管理 
人 员 、 信 息 分 析 人 员 非 常 方便 地 采用 C/S 和 B/S 模式 对 数据 进行 分 析 和 查询 ， 其 快速 的 
分 析 过 程 、 准 确 可 靠 的 分 析 结 果 ， 使 工作 人 员 的 工作 效率 和 质量 大 为 提高 。 

专家 提醒 

C/S ( Client/Server ) 模式 是 20 世纪 90 年 代 管 理 信息 系统 (MIS ) 中 较为 先进 的 技术 ， 
C/S 应 用 系统 基本 运行 关系 体现 为 “请 求 /响应 ”的 应 答 模式 . 每 当 用 户 需要 访问 服务 器 时 就 
由 客户 机 发 出 “请 求 "， 服务器 接受 “请 求 "， 并 “响应 ”"， 然 后 执行 相应 的 服务 ， 把 执行 结 
果 送 回 给 客户 机 ， 由 它 进一步 处 理 后 再 提交 给 用 户 。 

随 着 信息 技术 的 发 展 ，C/S 模式 已 无 法 完全 满足 人 们 的 需要 ， 而 且 静 态 网 页 也 无 法 提供 
充分 的 交互 功能 ， 动 态 信 息 发 布 相对 较 困难 ， 这 就 需要 将 数据 库 与 Web 服务 器 连接 起 来 ， 
供用 户 查 询 或 更 新 , 而 发 布 动态 信息 还 可 以 简单 到 只 需 改 动 一 下 数据 库 的 若干 记录 或 字段 就 
可 以 实现 。 这 样 ，B/S ( Browser/Server ) 模式 在 管理 信息 系统 中 开始 大 量 应 用 。B/S 结构 体 
系 多 了 Web 服务 器 ， 用 户 使 用 Web 浏览 器 访问 Web 页 ， 从 数据 库 获取 的 信息 能 以 文本 、 图 
像 、 表 格 或 多 媒体 对 象 的 形式 在 Web 页 上 展现 ， 用 户 通过 Web 页 上 显示 的 表格 与 数据 库 即 
可 及 时 进行 交互 操作 。 


5.4.5 【案例 】 大 数据 帮助 消费 者 提高 能 源 效率 


Pecan Street 是 一 个 非 营 利 性 组 织 ， 由 德 克 萨 斯 大 学 、 相 关 技 术 公 司 和 公用 事业 提 
供 商 组 成 ， 它 们 共同 协作 在 智能 电网 技术 领域 进行 测试 、 试 运行 和 商业 化 运营 工作 。 
Pecan Street 的 核心 工作 是 研究 一 种 终端 设备 到 云 的 架构 ,其 能 够 捕获 多 个 来 源 的 数据 ， 
并 进行 存储 以 供 分 析 和 可 视 化 之 用 。 

Pecan Street 主要 通过 一 些 系统 收集 电力 数据 ， 还 通过 使 用 无 线 网 关 的 公用 事业 量 
表 收 集 燃 气 和 水 的 数据 。 例 如 ，Pecan Street 通过 记录 消费 者 的 行为 ， 会 自动 修改 其 家 
庭 中 的 环境 控制 方式 ( 如 空调 系统 等 )， 或 者 调整 其 能 源 信息 查看 方式 等 。Pecan Street 
还 计划 收集 来 自 高 级 恒温 器 、 家 庭 自动 化 系统 、 家 庭 安保 系统 、 运 动 探测 器 以 及 新 能 源 
技术 ( 如 太阳 能 板 和 电动 汽车 充电 站 ) 的 数据 。 

Pecan Street 采用 了 EMC 公司 的 Greenplum 大 数据 解决 方案 。Greenplum 系统 采 
用 了 大 量 并 行 处 理 ( MPP ) 架构 ， 可 帮助 Pecan Street 利用 针对 结构 化 和 非 结构 化 数据 
的 模块 化 解决 方案 来 处 理 和 分 析 数 据 。 
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Pecan Street 除了 要 寻求 合适 的 大 数据 分 析 方 法 外 ， 收 集 的 数据 完整 性 也 是 一 大 问 
题 。 例 如 ， 数 据 系统 中 的 无 效 信道 或 者 居民 宽带 连接 中 断 都 会 提供 不 可 靠 的 值 。 因 此 ， 
Pecan Street 通过 生成 已 知 完好 数据 的 合格 数据 集 来 解决 此 问题 ， 将 这 些 数据 标记 为 极 
高 质量 ， 并 指引 研究 人 员 使 用 这 些 数 据 。 

当前 ，Pecan Street 已 经 通过 德 克 萨 斯 州 奥 斯 丁 市 Mueller 社区 200 多 个 家 庭 中 的 
传感器 系统 ， 收 集 了 近 两 年 的 能 耗 数据 。 利 用 大 数据 分 析 ，Pecan Street 可 以 更 好 地 了 
解 人 们 的 能 源 消费 方式 及 其 希望 的 能 源 管理 方式 。 此 外 ，Pecan Street 可 以 向 公用 事业 
公司 提供 洞察 业务 ， 帮 助 他 们 在 电网 改造 领域 进行 最 佳 投资 。 

【案例 解析 }， 大 数据 分 析 可 产生 大 量 的 价值 ， 正 如 大 多 数 有 价值 的 工作 一 样 ， 大 
数据 项 目 在 一 开始 可 能 会 困难 重重 ， 但 它 绝对 值得 我 们 投入 时 间 和 精力 去 挖掘 其 中 的 价 
值 。 在 本 案例 中 ，Pecan Street 项 目的 主要 目的 是 推动 在 消费 者 能 源 管理 领域 发 现 新 的 
产品 、 服 务 和 经 济 机 会 。 

笔者 认为 ,Pecan Street 的 研究 将 可 以 向 人 们 提供 管理 和 减少 其 能 耗 的 知识 和 工具 ， 
以 帮助 消费 者 提高 能 源 效率 ， 使 其 家 庭 生活 更 舒适 。 此 外 ， 公 用 事业 公司 将 能 够 利用 此 
类 数据 更 好 地 管理 电网 , 并 投资 更 佳 的 基础 设施 改造 工作 。 同 时 , 笔者 建议 Pecan Street 
以 及 其 他 相关 企业 再 接 再 厉 ， 利 用 大 数据 分 析 进 一 步 完善 其 “智能 电网 ”系统 ， 解 决 电 
网 运营 的 4 大 核心 问题 ， 如 图 5-9 所 示 。 
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5-9 电网 运营 的 4 大 核心 问题 


案例 : 摆 脐 大 
数据 风 瞳 


学 前 提示 

我 们 在 谈论 大 数据 的 美好 前 景 时 ， 当 然 不 能 完全 忽略 它 可 能 带 来 的 风险 。 很 多 人 目 
前 只 关注 大 数据 化 带 来 的 后 果 ， 如 信息 安全 ， 而 没有 关注 如 何 看 待 大 数据 本 身 的 风险 。 
本 章 将 就 当前 尤其 国内 技术 环境 下 ,进入 大 数据 时 代 所 面临 的 风险 和 存在 的 问题 做 简要 
分 析 。 


要 点 展示 

< ”问题 凸显 ， 大 数据 存在 5 大 风险 
步 步 小 心 ， 大 数据 项 目 7 大 误区 
踏 雪 无 着， 彻底 逃离 大 数据 监视 
有 备 无 患 ， 做 好 大 数据 风险 管理 
大 数据 风险 管理 应 用 案例 


人 A 入 入 A 


6.1 ”问题 号 显 ， 大 数据 存在 5 大 风险 


对 于 大 多 数 企业 来 说 ， 大 数据 已 经 成 为 左右 战局 的 决定 性 力量 ， 安 全 风险 也 随 之 更 
加 凸显 。 企 业已 经 搜集 并 存储 了 所 有 的 数据 ， 接 下 来 他 们 该 干 些 什么 ?他 们 如 何 对 这 些 
数据 进行 保护 ? 而 且 最 为 重要 的 是 ， 他 们 如 何 安全 合法 地 利用 这 些 数 据 ? 

当然 ， 任 何事 物 都 是 把 双 刃 剑 ， 大 数据 正在 变 成 生活 的 第 三 只 眼 ， 它 敏锐 地 洞察 却 
也 正 监 控 着 我 们 的 生活 。 想 一 想 ， 亚 马 逊 监视 着 我 们 的 购物 习惯 ， 百 度 监视 着 我 们 的 网 
页 浏览 习惯 ， 微 博 似乎 对 我 们 和 我 们 朋友 的 关系 无 所 不 知 。 

大 数据 的 确 改 变 了 我 们 的 思维 ， 更 多 的 商业 和 社会 决策 能 够 “以 数据 说 话 "。 不 过 
除了 这 所 有 利好 ， 如 何 让 大 数据 不 侵入 我 们 的 隐私 世界 ， 也 是 与 之 伴生 并 需 严肃 考虑 的 


问题 。 


机 器 旦 网 潭 于 . . 击 距 才 


6.1.1 风险 1: 个 人 隐私 泄露 


正 被 美国 全 球 通缉 的 斯 诺 登 不 久 前 “ 冯 入 ”上 海 一 场 大 数据 研讨 会 。 确 切 地 说 ， 研 
讨 会 的 多 位 发 言 者 都 提 到 被 斯 诺 登 捅 破 的 “棱镜 门 "。 从 纯 技术 角度 观察 , “棱镜 ”是 一 
个 典型 的 通过 分 析 海 量 通信 数据 获取 安全 情报 的 大 数据 案例 ， 但 它 也 引发 了 思考 : 大 数 
据 时 代 ， 个 人 隐私 该 何 处 安放 ? 

在 大 数据 时 代 的 背景 下 ， 你 可 以 想象 一 些 场景 ， 如 图 6-1 所 示 。 


发送 电子 邮件 时 ， 你 的 
职 系 信息 已经 记录 | 《上 
Se 


城市 的 视频 监控 系统 
为 你 提供 安全 感 的 同 
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图 6-1 大 数据 时 代 背 景 下 的 隐私 泄露 途径 


在 大 数据 的 时 代 背 景 下 , 一 切 都 数据 化 了 , 我 们 平常 上 网 浏览 的 数据 , 我 们 的 医疗 、 
交通 、 购 物 数 据 ， 统 统 都 被 记录 下 来 ， 这 就 是 大 数据 的 起 源 。 在 这 个 时 候 ， 我 们 每 个 人 


D> 


都 成 了 一 个 数据 产生 者 ， 数 据 贡 献 者 。 大 数据 的 神奇 之 处 在 于 ， 通 过 对 大 数据 的 分 析 ， 
其 他 人 甚至 能 够 在 很 大 程度 上 精确 地 知道 你 是 谁 。 

人 的 行为 看 似 随 机 无 序 ， 但 实际 上 是 存在 某 种 规律 的 。 社 交 网 络 如 此 发 达 的 今天 ， 
大 数据 把 人 的 行为 进行 放大 分 析 ， 从 而 能 够 相对 准确 地 预测 人 的 性 格 和 行程 。 所 以 ， 不 
排除 有 这 样 一 种 可 能 : 在 忙 完了 一 天 的 工作 之 后 ， 你 还 没有 决定 要 去 哪儿 ， 数 据 中 心 却 
先 于 你 预测 了 你 接 下 来 的 目的 地 。 

例如 ， 在 央视 “3， 15” 晚 会 上 ， 安 卓 手 机 软件 窃取 用 户 隐 私信 息 的 情况 得 以 披露 。 
然而 ， 这 仅 是 冰山 一 角 。2013 年 前 3 个 月 ， 金 山手 机 毒霸 检测 到 恶意 侵犯 用 户 隐 私 的 
安 卓 软件 共计 2.3 万 个 ,每 天 有 41 万 部 安 卓 手机 能 检测 到 窃取 隐私 的 恶意 程序 ， 如 
图 6-2 所 示 。 


. . 施 噬 才 


从 
省 
量 
到 
精 
准 


YY 
@ 容 取 通讯 录 网 
科 伪造 广 告 短信 各 
作 上 传 用 户 手机 号 码 从 
人 拦截 指定 内 容 的 短信 四 
人 @ 发 送 扣 费 短信 险 
全 其 他 ss 


局 


图 6-2 恶意 窃取 隐私 行为 


随 着 产生 、 存 储 、 分 析 的 数据 量 越 来 越 大 ， 隐 私 问题 在 未 来 的 几 年 也 将 愈加 凸显 。 
所 以 ， 新 的 数据 保护 要 求 以 及 立法 机 构 和 监管 部 门 的 完善 应 当 提 上 日 程 。 


6.1.2 风险 2: 数据 管理 困难 


大 数据 除了 有 隐私 方面 的 忧患 外 ， 它 的 危险 还 包括 它 将 会 诱 使 企业 管理 进入 史诗 般 
的 同 质 性 。 收 集 足 够 的 数据 ， 每 个 人 的 统计 开始 看 起 来 都 是 一 样 的 。 应 用 标准 的 分 析 ， 
然后 所 有 的 结论 也 开始 看 起 来 都 是 一 样 的 。 正 如 营销 人 员 们 开始 认为 他 们 真正 地 知道 他 
们 所 做 的 事情 ， 但 是 他 们 会 发 现 他 们 正在 做 的 事情 是 其 他 人 也 正在 做 的 。 现 在 这 不 仅仅 
是 没有 创造 力 的 问题 了 ， 而 是 积极 地 反 创 造 力 的 问题 。 

无 论 从 企业 存储 策略 与 环境 来 看 ， 还 是 从 数据 与 存储 操作 的 角度 来 看 ， 大 数据 带 来 
的 “管理 风险 ”不 仅 日 益 突出 ， 而 且 如 果 不 能 妥善 解决 ， 将 肯定 会 造成 “大 数据 就 是 大 
风险 ”的 可 怕 后 果 。 

事实 上 ， 很 多 企业 并 没有 真正 理解 什么 是 大 数据 ， 也 没有 部 署 相关 工具 去 有 效 地 管 
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理 它 们 。 最 近 ，LogLogic 与 IT 安全 研究 公司 Echelon One 共同 完成 了 一 项 大 数据 管理 
调查 ， 此 次 调查 的 对 象 是 207 位 来 自 各 行 各 业 的 主管 或 主管 级 别 以 上 的 个 人 ， 调 查 结果 
如 图 6-3 所 示 。 


图 6-3 ”大 数据 管理 调查 结果 


此 外 ,调查 还 发 现 ，59% 的 企业 没有 部 署 相关 工具 来 管理 IT 系统 中 的 数据 ， 而 是 转 
向 独立 系统 和 其 他 系统 ， 甚 至 使 用 电子 表格 。 

如 果 正确 使 用 大 数据 ， 它 将 为 你 提供 梦 罕 以 求 的 情报 和 洞察 力 ， 从 而 帮助 企业 做 出 
明智 的 决定 。 在 安全 方面 ， 它 可 以 让 你 看 到 网 络 中 正在 发 生 的 事情 ， 以 保护 企业 免 受 高 
持续 性 威胁 和 恶意 软件 。 同 时 ， 它 还 能 通过 优化 服务 器 和 供应 链 管 理 来 提高 企业 运营 效 
率 ， 甚 至 还 可 以 帮助 你 处 理 法 规 遵 从 的 问题 。 

专家 提醒 

企业 控制 大 数据 的 关键 之 一 是 日 志 管 理 ， 日 志 管理 能 够 整合 来 自 企 业 范 围 内 的 所 有 日 
志 ， 建 立 索引 存储 库 ， 并 以 常见 的 用 户 界 面 显示 。 因 此 ， 企 业 想 要 利用 这 些 数据 ， 就 需要 具 
备 数据 规范 化 和 关联 化 以 及 报告 和 发 送 告警 的 能 力 。 


6.1.3 风险 3: 成 本 难以 控制 


随 着 时 间 的 推移 ， 企 业 产生 的 数据 量 已 经 越 来 越 大 了 ， 这 些 数据 包括 客户 购买 偏好 
趋势 、 网 站 访问 和 习惯 、 客 户 审查 数据 等 。 传 统 的 商业 智能 ( BI ) 工具 在 处 理 企业 海量 
数据 时 已 经 有 点 能 力 不 够 了 。 届 时 ， 你 需要 面 对 的 是 大 量 的 支出 : 额外 的 人 员 和 技术 资 
源 用 以 管理 整体 环境 ， 例 如 系统 管理 及 监控 ; 通过 不 同业 务 系统 而 来 的 附加 软件 ， 以 及 
管理 集群 的 工具 等 。 


例如 ， 零 售 业 巨 头 沃尔玛 每 小 时 处 理 超 过 一 百 万 条 客户 交易 ， 输 入 数据 库 中 的 数据 
预计 超过 2.5PB 一 一 相当 于 美国 国会 图 书馆 书籍 存量 的 167 倍 。 通 信 系 统制 造 商 思科 预 
计 ， 到 2013 年 互联 网 上 流动 的 数据 量 每 年 将 达到 667EB， 数 据 增长 的 速度 将 持续 超过 
承载 其 传送 的 网 络 发 展 速度 。 

另外 ， 来 自 淘宝 网 的 数据 统计 显示 ， 淘 宝 一 天 内 产生 的 数据 量 即 可 达到 甚至 超过 
30TB, 这 仅仅 是 一 家 互联 网 公司 一 日 之 内 的 数据 量 ， 处 理 如 此 体 量 的 数据 ， 首 先 面临 的 
就 是 技术 方面 的 问题 。 海 量 的 交易 数据 、 交 互 数据 使 得 大 数据 在 规模 和 复杂 程度 上 超出 
了 常用 技术 按照 合理 的 成 本 和 时 限 抓 取 、 存 储 及 分 析 这 些 数 据 集 的 能 力 。 

如 图 6-4 所 示 ， 可 以 看 出 资源 利用 率 低 、 扩 展 性 差 以 及 应 用 部 署 过 于 复杂 是 现今 企 
业 数 据 系 统 架 构 面临 的 主要 问题 。 其 实 ， 大 数据 的 基础 架构 首要 考虑 的 就 是 前 瞻 性 ， 随 
着 数据 的 不 断 增 长 ， 用 户 需要 从 硬件 、 软 件 层面 思考 需要 怎样 地 架构 去 实现 它 。 因 此 ， 
具备 资源 高 利用 率 、 高 扩展 性 并 对 文件 存储 无 障碍 的 文件 系统 必 将 是 未 来 的 发 展 趋势 。 
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图 6-4 大 数据 构架 面临 的 问题 


由 此 可 见 ， 大 数据 对 企业 来 说 可 能 并 不 全 是 机 遇 ， 还 意味 着 财政 支出 ， 原 因 是 针对 
大 数据 存储 或 者 挖掘 的 成 本 也 很 高 。 对 此 ， 笔 者 认为 企业 可 以 将 重点 放 到 通过 最 新 收集 
的 数据 带 来 更 多 价值 ， 减 少 非 重点 数据 带 来 的 存储 硬件 与 软件 的 成 本 。 


6.1.4 风险 4: 网 络 安全 漏洞 


以 前 ， 只 有 IT 部 门 那些 最 懂 技 术 的 工作 人 员 才 明白 数据 安全 。 在 IT 部 门 的 办 公 室 
之 外 ， 病 毒 、 木 马 、 蠕 虫 这 些 词 都 不 会 被 提 及 ， 管 理 层 也 并 不 关心 黑客 和 僵尸 机 ， 董 事 
会 根本 不 清楚 什么 是 零 日 攻击 ， 更 不 用 说 零 日 攻击 能 带 来 多 大 的 危害 了 。 然 而 ， 现 在 ， 
大 数据 以 及 随 之 而 来 的 各 种 威胁 几乎 成 为 每 一 个 单位 日 常 的 一 部 分 ， 大 数据 的 网 络 安全 
也 慢 慢 地 变 成 了 一 个 被 广泛 关注 的 商业 问题 。 

随 着 越 来 越 多 的 交易 、 对 话 、 互 动 在 网 上 进行 ， 这 种 刺激 使 得 网 络 犯罪 分 子 比 以 往 
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任何 时 候 都 要 猩 儿 。 影 响 和 带 来 网 络 故障 和 安全 事件 的 因素 ， 主 要 来 源 于 如 图 6-5 所 示 
的 几 个 方面 。 


图 6-5 网 络 风险 产生 的 主要 因素 


国际 上 , 网 络 安全 已 开始 从 信息 安全 转向 信息 保障 , 从 被 动 的 预防 向 主动 保护 过 渡 。 
国内 的 信息 保障 虽 已 提 上 日 程 ， 但 从 理论 走向 应 用 还 需要 一 个 过 程 ， 这 个 过 程 的 长 短 和 
企业 信息 化 的 进程 息息相关 。 总 的 来 说 ， 网 络 安全 系统 以 策略 为 核心 ， 以 管理 为 基础 ， 
以 技术 为 实现 手段 。 


专家 提醒 
很 显然 ， 保 证 数据 输入 以 及 大 数据 输出 的 安全 性 是 个 很 艰巨 的 挑战 ， 它 不 仅 影 响 到 潜在 
的 商业 活动 和 机 会 ,而且 有 着 深远 的 法 律 内 涵 。 我们 应 该 保持 敏捷 性 并 在 问题 出 现 前 对 监管 
规则 作出 适当 的 改变 ， 而 不 是 坐等 问题 的 出 现 再 亡羊补牢 。 


6.1.5 风险 5: 数据 人 才 缺 乏 


如 今 ， 大 数据 市 场 已 经 逐渐 繁荣 起 来 ， 但 不 少 企业 发 现 ， 目 前 对 于 最 新 的 一 些 产品 
不 能 配备 足够 的 人 手 。 据 塔 塔 咨询 服务 公司 ( TCS ) 的 调查 显示 ，IT 行业 人 才 缺 乏 ， 符 
合 条 件 的 大 数据 分 析 人 士 很 少 ， 这 也 是 许多 企业 在 寻求 打造 与 部 署 大 数据 系统 所 面临 的 
困难 之 一 。 

如 图 6-6 所 示 ， 在 大 数据 时 代 ， 企 业 面临 的 挑战 可 以 从 中 看 出 一 些 端倪 。 缺 乏 专业 
的 大 数据 人 才 成 为 企业 面临 的 最 大 挑战 ， 其 次 是 非 结 构 化 数据 的 分 析 和 处 理 、 传 统 技术 
难以 处 理 大 数据 以 及 新 技术 门槛 过 高 。 

例如 ， 阿 里 巴巴 支付 宝 用 户 价值 创新 中 心 是 支付 宝 大 数据 业务 的 核心 部 门 ， 这 个 只 
有 7 了 个 人 的 团队 负责 为 公司 开发 出 可 以 销售 的 商业 化 大 数据 产品 。 虽 然 阿里 巴巴 各 类 业 
务 产生 的 数据 为 数据 分 析 创 造 了 非常 好 的 基础 条 件 ， 然 而 这 个 团队 却 因为 招聘 不 到 合适 
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的 数据 科学 家 而 在 研发 上 进展 缓慢 。 


25.27% 21.13% 26.65% 26.95% 
传统 技术 难以 ”新 技术 门槛 过 高 。 非 结 构 化 数据 缺乏 专业 的 
处 理 大 数据 的 分 析 和 处 理 大 数据 人 才 


图 6-6 企业 在 大 数据 时 代 面 临 的 挑战 


不 仅仅 是 阿里 巴巴 在 面 对 大 数据 发 展 时 遭遇 人 才 瓶 颈 ， 多 家 咨询 机 构 也 都 预测 了 大 
数据 的 快速 增长 和 人 才 需 求 规模 。 据 Gartner 预测 ， 到 2015 年 ， 全 球 将 新 增 440 万 个 
与 大 数据 相关 的 工作 岗位 ， 且 会 有 25% 的 组 织 设 立 首席 数据 官职 位 。 

在 欧美 国家 ， 数 据 分 析 人 员 的 工资 水 平 可 以 排 在 前 列 ， 但 国内 数据 分 析 人 员 整 体 逊 
于 国外 分 析 人 员 。 笔 者 认为 ， 大 数据 相关 人 才 的 欠缺 将 会 成 为 影响 我 国 大 数据 市 场 发 展 
的 一 个 重要 因素 。 据 IDC 机 构 预测 ， 中 国 大 数据 技术 与 服务 市 场 将 会 从 2011 年 的 7760 
万 美元 快速 增长 到 2016 年 的 6.16 亿美 元 。 然 而 ， 国 内 各 大 公司 普遍 不 重视 数据 分 析 人 
员 ， 其 薪酬 水 平 属 于 平均 水 平 。 

大 数据 职位 相关 的 技能 主要 包括 数学 、 统 计 学 、 数 据 分 析 、 商 业 分 析 和 自然 语言 处 
理 , 数据 科学 家 是 复合 型 人 才 ， 需要 对 数学 、 统 计 学 、 机 器 学 习 等 多 方面 知识 综合 掌控 。 
目前 ， 国 内 的 人 才 市 场 上 很 难 招募 到 优秀 的 数据 分 析 人 员 。 

因此 ， 如 果 你 正在 寻找 的 是 高 端 数据 人 才 ， 这 个 任务 无 疑 是 很 困难 的 。 不 过 在 你 发 
出 “我 找 不 到 人 才 ” 这 样 的 歇斯底里 之 前 ， 确 定好 你 的 需求 和 培训 的 规模 ， 然 后 和 当地 
一 所 大 学 建立 联系 ， 这 样 或 许 你 的 问题 会 变 得 更 容易 解决 。 


6.2” 步 步 川 由 ， 大 数据 项 目 7 大 误区 


大 数据 分 析 可 以 给 组 织带 来 很 大 的 商业 价值 ， 但 是 如 果 你 不 小 心 ， 不 从 其 他 公司 犯 
的 错误 中 吸取 教训 的 话 ， 它 也 可 以 带 来 灾难 。 因 此 ， 应 谨 记 本 节 提 到 的 几 个 问题 ， 切 莫 
成 为 大 数据 分 析 项 目的 反面 典型 。 
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6.2.1 误区 1: 盲目 跟风 


由 于 “大 数据 ( Big Data )” 近 两 年 来 是 信息 技术 领域 最 时 瞩 的 词汇 ， 因 此 , 很 多 人 
甚至 还 没 明白 什么 是 大 数据 ， 就 眼 高 手 低地 开始 部 署 大 数据 项 目 ， 亡 图 赶 上 大 企业 的 步 
伐 ， 想 走 捷径 ， 结 果 往往 是 钻 入 了 “牛角 尖 "。 

很 多 企业 或 机 构 在 开发 他 们 的 第 一 套数 据 仓 库 或 者 BI 系统 时 经 常会 犯 “ 盲 目 跟风 ” 
的 错误 。 太 多 时 候 ， 大 数据 分 析 项 目 管理 者 被 技术 炒作 所 迷惑 ， 忘 记 了 他 们 首要 的 任务 
是 商业 价值 ， 过 分 追求 数据 分 析 技 术 ， 却 不 知 那 仅仅 是 一 个 用 来 产生 商业 价值 的 工具 。 

现在 应 对 大 数据 ， 可 以 以 高 可 用 高 可 靠 性 、 高 可 扩展 性 的 基础 架构 和 高 性 能 的 分 析 
系统 来 应 对 ， 然 而 ， 谈 大 数据 的 风险 ， 谈 数据 挖掘 ， 它 的 效果 到 底 多 好 ? 事实 上 是 需要 
得 到 验证 的 。 

笔者 认为 ， 尽 管 大 数据 是 个 值得 重视 和 关注 的 方向 ， 但 目前 技术 上 并 不 成 熟 ， 各 企 
业 不 要 盲目 上 马 大 数据 项 目 、 建 大 数据 中 心 ， 以 免 重 蹈 云 计算 过 热 的 覆 边 。 另 外 ， 云 计 
算 发 展 几 年 来 成 效 并 不 显著 ， 很 多 地 方 建 的 云 计算 中 心 利用 率 不 高 ， 不 少 还 仅仅 是 数据 
库 ， 没 有 提供 云 服务 的 能 力 。 

大 数据 分 析 的 支持 者 们 不 应 该 盲目 地 采用 产品 ， 他 们 首先 需要 判断 该 技术 所 服务 的 
业务 目标 ， 以 便 建立 业务 案例 ， 然 后 为 手头 工作 选择 正确 的 大 数据 分 析 工 具 。 如 果 没 有 
对 业务 需求 的 深刻 理解 ， 会 存在 很 大 风险 ， 项 目 团队 最 终 可 能 将 创建 出 一 个 毫 无 用 处 的 
“大 硬盘 "。 

因此 ， 规 避 大 数据 的 风险 ， 不 能 盲目 跟风 ， 特 别 要 明确 实施 大 数据 的 目标 ， 要 有 人 切 
实 可 行 的 规划 ， 此 外 要 有 质量 足够 好 的 数据 。 尤 其 是 发 展 大 数据 产业 需要 有 明晰 的 产业 
规划 ， 建 大 数据 中 心 要 有 明确 的 用 途 和 服务 对 象 。 


专家 提醒 
笔者 再 次 提醒 ， 大 数据 时 代 确 实 给 我 们 带 来 了 很 大 的 诱惑, 我们 可 以 通过 数据 分 析 得 到 
预知 未 来 甚至 穿越 过 去 的 效果 ， 但 是 我 们 也 不 要 盲目 跟风 ， 适 合 自己 的 才 是 最 好 的 。 


6.2.2 误区 2: 思路 太 过 僵硬 
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很 多 情况 下 ， 企 业 的 大 数据 项 目 采 用 “放羊 式 ” 管 理 : 寻找 到 一 片 草地 ， 就 把 羊 赶 
出 去 ， 任 羊 自己 去 寻找 水 源 和 青草 。 结 果 往 往 是 : 聪明 的 羊 骤 肥 身 圆 ， 迟 钝 点 的 羊 瘦 骨 
伶 们 。 这 是 由 于 万 物 生存 法 则 一 一 " 适 者 生存 ”所 导致 的 。 

通常 , 人们 总 是 不 断 尝 试 他 们 过 去 的 做 法 , 即便 当 他 们 面 对 不 同 的 场景 时 也 会 这 样 。 
从 而 导致 在 大 数据 情况 下 ， 一 些 企业 会 想当然 地 认为 所 谓 “ 大 ”只 是 意味 着 更 多 的 交易 
和 更 大 的 数据 量 。 这 种 观点 可 能 是 正确 的 ， 但 是 许多 大 数据 分 析 策 略 会 涉及 非 结 构 化 和 
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半 结 构 化 信息 ， 需 要 以 完全 不 同 于 企业 应 用 程序 和 数据 仓库 中 结构 化 数据 的 方式 管理 和 
分 析 。 

因此 ， 企 业 管理 者 不 仅 要 让 “大 数据 正确 地 做 事 " ， 更 需要 “引导 大 数据 做 正确 的 
事 "， 最 好 有 一 套 新 的 方法 和 工具 来 进行 大 数据 的 捕获 、 清 洗 、 存 储 、 集 成 和 访问 。 正 
如 一 个 好 棋 手 ， 走 一 观 二 想 三 ， 深 谋 远 虑 才能 保证 在 大 数据 道路 上 不 断 前 进 。 

专家 提醒 

创新 性 思维 为 我 们 提供 了 科学 的 思维 依据 和 方法 , 将 其 融会 贯通 后 定 会 提高 大 数据 分 析 

问题 的 能 力 和 解决 问题 的 能 力 ， 促 进 企业 快速 发 展 。 


6.2.3 误区 3: 不 注重 他 人 的 经 验 


在 做 大 数据 项 目 时 ， 有 些 人 会 走向 另 一 个 极端 ， 认 为 大 数据 中 的 一 切 都 是 完全 不 同 
的 ， 他 们 必须 从 头 开始 ， 从 而 不 知 不 觉 地 走 进 了 误区 。 对 于 大 数据 分 析 项 目的 成 功 ， 这 
种 错误 甚至 比 认为 没有 不 同 更 要 命 。 

俗话 说 :“ 失 败 是 成 功 之 母 。 每 个 人 都 熟悉 的 这 和 句 话 , 同样 可 以 运用 于 大 数据 项 目 。 
其 实 ， 数 据 分 析 大 师 是 经 过 无 数 次 失败 才 换 来 成 功 的 。 因 此 ， 各 企业 的 大 数据 项 目 往往 
只 是 分 析 的 数据 结构 不 同 ， 而 数据 管理 的 基本 原则 却 都 大 同 小 异 ， 完 全 可 以 借用 ， 这 样 
才能 更 节省 时 间 和 精力 。 


6.2.4 误区 4: 把 大 数据 当 “ 门 面 ” 


现实 中 ， 有 些 企业 喜欢 追求 热门 ， 只 是 将 大 数据 项 目 当 作 “ 咕 头 ”来 吸引 业务 ， 认 
为 自己 有 了 大 数据 项 目 就 是 新 型 科技 企业 ， 却 不 看 重大 数据 的 实际 价值 。 据 国外 报告 显 
示 ， 多 数 企业 只 用 了 收集 到 的 数据 总 量 的 0.5% 来 进行 决策 ， 这 意味 着 绝 大 多 数 的 数据 
被 浪费 掉 了 。 

在 这 些 企业 中 ， 衡 量 大 数据 分 析 项 目的 成 功 仅仅 是 通过 数据 收集 和 分 析 来 进行 。 而 
事实 上 ， 收 集 和 分 析 数 据 只 是 开始 。 如 果 结 合 了 业务 流程 ， 并 促使 业务 经 理 们 和 用 户 为 
改善 组 织 绩效 和 业绩 而 付 诸 行 动 ， 之 后 ， 分 析 才 能 产生 商业 价值 。 要 获得 真正 的 效率 ， 
就 需要 把 分 析 项 目 纳 入 反馈 闭环 ， 以 便于 交流 分 析 结 果 ， 然 后 基于 经 营业 绩 提炼 分 析 
模型 。 

大 数据 的 应 用 不 仅仅 停留 在 IT 领域 ,在 医药 、 科 学 、 制 造 以 及 气象 等 行业 , 都 将 出 
现 海量 的 数据 应 用 ， 如 果 能 合理 地 利用 这 些 资源 ， 其 将 对 行业 产生 巨大 的 推动 ， 但 目前 
来 看 ， 大 数据 应 用 还 远 远 不 够 。 多 数 企 业 仍然 是 扔 掉 的 数据 比 保留 的 多 ， 如 何 去 筛 选 数 
据 ， 数 据 留 存 多 久 ， 这 一 系列 问题 都 是 需要 企业 与 监管 部 门面 对 的 ， 但 现在 仍然 缺少 一 
个 大 数据 应 用 的 框架 。 
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6.2.5 误区 5: 过 度 夸 大 数据 成 果 


近日 ， 笔 者 听 到 两 个 朋友 抱怨 。 

朋友 A 说 :“ 我 们 的 领导 不 干脆 。 外 部 门 踢 过 来 的 工作 ， 不 说 接 也 不 说 不 接 ， 搞 得 
下 面 的 人 做 也 不 是 不 做 也 不 是 。 对 下 属 的 求助 也 是 模棱两可 ， 总 是 说 ,“ 这 个 事 儿 ， 再 
搞 搞 ， 再 看 看 ， 再 研究 研究 , ”很 多 都 明确 了 的 事 儿 还 是 要 一 拖 再 拖 ， 不 决策 。 

朋友 B 说 :“ 我 们 的 领导 不 懂 业 务 ， 又 喜欢 揽 活 ， 经 常 胸 膊 一 拍 说 ,“ 这 个 事 儿 我 来 
干 ! ”回来 就 丢 给 下 面 的 人 做 。 但 是 实际 上 这 个 活 儿 与 我 们 部 门 是 “ 风 马 牛 不 相 及 " ， 根 
本 就 无 法 完成 ， 强 出 头 的 结果 往往 是 费力 不 讨好 。 

这 样 的 对 话 每 天 都 在 发 生 ， 这 样 的 领导 也 比比 皆 是 。 不 承诺 和 过 度 承 诺 ， 已 经 成 为 
管理 者 们 常见 的 一 个 现象 。 究 其 根源 ， 往 往 是 不 了 解 业 务 、 流 程 及 对 责任 感 的 错误 理解 
所 致 。 其 实 ， 许 多 大 数据 分 析 项 目 陷 入 了 这 样 的 一 个 误区 : 过 度 宣扬 他 们 部 署 的 大 数据 
系统 会 有 多 么 快 ， 业 务 会 获得 多 么 重大 的 益处 。 

企业 对 大 数据 项 目的 “过 度 承诺 ” 需要 在 销售 过 程 中 向 客户 明示 ,这 种 “过 度 承诺 ” 
在 客观 上 使 该 项 目 成 为 “卖点 "， 刺 激 了 客户 购买 欲 ， 增 加 了 相关 的 商品 销量 和 扩大 了 
营业 额 。 但 是 ， 长 此 以 往 ， 结 果 往 往 却 不 乐观 。 过 度 的 承诺 和 交付 的 不 足 ， 必 然 导致 业 
务 与 技术 的 分 离 ， 造 成 该 组 织 会 在 很 长 时 间 内 推迟 特定 技术 的 选用 一 一 即便 其 他 许多 公 
司 已 经 使 用 该 技术 获得 了 成 功 。 此 外 ， 如 果 你 设 定 了 很 轻松 、 很 快 就 能 获 益 的 预期 ， 业 
务 主管 就 有 一 种 认识 倾向 ， 容 易 低估 了 需要 参与 和 承担 义务 的 程度 ， 当 足够 资源 不 能 竞 
现时 ， 预 期 的 收益 就 很 难 达 到 了 ， 那 么 你 的 大 数据 项 目 基本 就 贴 上 了 “失败 的 标签 ”， 
甚至 还 要 承担 客户 的 损失 。 


6.2.6 误区 6: 想 要 获得 所 有 数据 


我 们 正 生 活 在 一 个 前 所 未 有 的 大 数据 时 代 当 中 ， 我 们 从 来 都 没有 像 现 在 这 样 能 够 获 
得 如 此 多 的 数据 。 在 如 今 的 工业 化 社会 中 ， 平 均 每 个 人 一 天 所 消费 的 信息 量 超过 了 生活 
在 十 五 世纪 的 人 一 生 所 消费 的 信息 量 。 

很 多 企业 为 了 挖掘 大 数据 , 不 断 地 构建 、 升 级 自己 的 IT 系统 , 妄图 获得 所 有 的 数据 。 
其 实 ， 目 前 还 没有 一 个 人 或 一 家 公司 能 够 存储 和 检索 关于 某 一 特定 主题 的 全 部 数据 ， 更 
不 要 说 是 所 有 数据 了 ， 包 括 谷 歌 在 内 。 谷 歌 索引 的 只 是 表层 网 中 的 信息 ， 而 不 是 深层 网 
中 的 信息 。 专 家 估 测 ， 后 者 的 规模 是 前 者 的 25 倍 。 因 此 ， 在 我 们 进行 搜索 时 ， 我 们 所 
获得 的 信息 量 仅仅 是 互联 网 信息 量 中 的 4% ~ 6%。 

笔者 认为 ， 钱 必须 要 用 才 有 价值 ， 数 据 也 是 一 样 。 只 有 不 停 地 使 用 数据 ， 挖 掘 数据 
背后 的 关系 和 价值 ， 才 能 如 滚雪球 一 般 ， 使 数据 之 间 的 相互 关系 更 丰富 和 完善 。 
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6.2.7 误区 7: 认为 软件 是 万 能 的 


很 多 人 构建 一 个 大 数据 项 目 ， 是 希望 他 们 部 署 的 软件 会 神奇 地 实现 一 切 功 能 ， 把 所 
有 的 问题 都 丢 给 分 析 软 件 ， 不 再 愿意 亲自 去 动脑 思考 。 当 然 ， 人 们 应 该 明白 希望 总 是 比 
现实 更 美好 。 软 件 确实 会 带 来 帮助 ， 有 时 帮助 还 会 很 大 ， 但 是 大 数据 分 析 的 效果 取决 于 
被 分 析 的 数据 和 使 用 工具 的 分 析 技 能 。 

大 数据 在 某 种 意义 上 只 能 作为 一 个 工具 ， 不 能 代替 人 类 自己 的 分 析 ， 如 果 把 所 有 的 
事情 都 交 给 大 数据 来 处 理 很 可 能 就 会 陷入 一 个 非常 大 的 困境 。 例 如 ， 现 在 很 多 影视 公司 
在 制作 影视 作品 时 ， 通 过 大 量 的 数据 分 析 来 指导 创作 ， 这 看 起 来 似乎 是 合理 的 ， 但 是 实 
践 结果 往往 并 非 如 此 。 国 内 一 家 知名 的 影视 数据 分 析 公 司 的 影视 剧 都 是 在 海量 的 数据 分 
析 基 础 之 上 进行 创作 的 ， 包 括 什么 样 的 题材 、 什 么 样 的 演员 、 什 么 时 间 投 放 都 经 过 了 非 
常 精密 的 计算 ， 可 是 最 终 理性 地 看 市 场 效应 ， 在 业内 有 影响 力 的 作品 并 不 多 。 

由 此 可 见 ， 在 应 用 数据 软件 指导 商业 行为 的 时 候 ， 依 然 存 在 着 很 多 不 确定 性 。 这 就 
需要 大 家 回 过 头 来 思考 另外 一 个 问题 ， 即 大 数据 对 商业 行为 的 产生 或 产生 的 影响 体现 在 
什么 地 方 。 笔 者 认为 其 更 多 是 在 营销 领域 ， 通 过 一 个 软件 分 析 消 费 者 的 主要 需求 ， 然 后 
根据 需求 选择 相应 的 商品 进行 生产 。 同 时 ， 也 可 以 根据 消费 者 的 需求 对 已 有 的 商品 进行 
修改 完善 。 所 以 ， 从 这 个 意义 上 讲 ， 大 数据 对 各 个 领域 的 影响 肯定 是 巨大 的 ， 如 果 能 够 
很 好 地 运用 ， 对 于 企业 的 发 展 有 非常 大 的 作用 ， 但 是 过 于 迷信 也 可 能 会 变 成 廖 误 。 

亏 家 提醒 

当然 ， 笔 者 并 不 是 说 ， 因 为 存在 不 确定 性 ， 大 数据 就 不 能 为 我 们 提供 帮助 了 ， 不 能 将 减 
少 不 确 定性 和 消除 不 确定 性 混为一谈 。 大 数据 能 够 帮助 我 们 消除 不 确定 性 的 这 一 天 还 没有 到 
来 ， 可 能 这 一 天 永远 也 不 会 到 来 。 对 海量 非 结 构 化 数据 进行 分 析 或 许 能 够 帮助 公司 更 好 地 理 
解 客户 的 情绪 ,但 不 要 误 认为 大 数据 能 够 为 我 们 排除 所 有 的 可 能 性 ,生命 的 无 常 和 业务 的 起 
做 将 会 破坏 我 们 制订 出 的 完美 计划 。 


6.3 ” 鹭 雪 无 着 ， 彻 度 逃 离 大 数 据 监视 


美国 作家 艾 伯 特 - 拉 斯 洛 " 巴 拉巴 西 的 新 书 《 爆 发 》 中 有 一 个 这 样 的 片段 : “我 点 击 
了 自己 的 名 字 ， 页 面 上 出 现 了 一 张 熟悉 的 照片 一 一 是 我 穿着 一 件 蓝 色 衬衫 的 照片 ， 旁 边 
配 有 我 的 基本 履历 资料 …… 我 点 开 了 一 个 最 近 更 新 的 链接 ， 地 点 是 波士顿 的 马萨诸塞 大 
街 …… 两 秒 钟 后 ， 我 在 视频 中 看 到 了 自己 推 开 了 地 铁 站 那 厚重 的 大 门 …… 每 次 看 到 自己 
出 现在 视频 中 ， 我 都 会 浑身 不 自在 。 但 现在 可 好 ， 我 的 一 举 一 动 已 经 被 LifeLinear 网 的 
系统 给 记录 了 下 来 ……” 
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书 中 的 “LifeLinear 系统 ”只 是 作者 杜撰 出 来 的 ， 并 非 真实 存在 。 但 是 作者 同时 认 
为 ， 在 科技 发 达 的 今天 ， 借 助 大 数据 的 平台 ,“LifeLinear 系统 ”并 非 不 能 实现 。 这 样 的 
场景 又 让 人 毛骨悚然 ， 如 果真 有 这 样 一 套 系统 面世 ， 我 们 的 隐私 岂 不 是 要 暴露 在 光 天 化 
日 之 下 ? 

大 数据 堪 称 一 把 双 刃 剑 ， 不 论 是 企业 还 是 个 人 ， 都 会 因 大 数据 的 爆发 获 益 匪 浅 ， 但 
同时 个 人 隐私 也 无 处 通 形 。 如 今 ， 人 们 在 网 上 的 每 一 次 活动 ， 都 会 留 下 蛛丝马迹 。 虽 然 
我 们 无 法 完全 躲避 “大 数据 ”的 监视 ， 却 也 可 以 踏 雪 无 痕 、 隐 通 无 形 ， 逃 离 那 些 秘密 网 
络 跟踪 。 


6.3.1 码头 : 让 网 络 行为 一 目 了 然 


“码头 ”项 目 及 其 监控 手段 是 NSA ( 美国 国家 安全 局 ) 所 实行 的 监控 项 目 中 最 鲜 为 
人 知 的 一 个 ， 即 使 是 那些 参与 其 中 的 情报 专家 对 项 目 整体 也 知之 甚 少 。 "码头 ”项 目 所 
监控 的 电子 邮件 、 网 上 聊天 系统 以 及 其 他 借助 互联 网 交流 的 媒介 使 用 频率 在 当下 远 胜 于 
普通 的 电话 或 者 手机 。 

美国 在 2001 年 “9 11” 恺 怖 袭击 发 生 后 不 久 启动 了 “元 数据 ”项 目 ，NSA 将 这 
些 “ 元 数据 ” 视 为 “数字 网 络 信息 "。 这 一 项 目 收集 互联 网 “交通 ”原始 数据 ， 被 称 作 
“码头 ”项 目 ， 也 称 为 “大 块 互联 网 元 数据 ” 项目， 其 包含 互联 网 信息 发 送 双方 的 地 址 ， 
包括 可 以 显示 发 送 或 接受 信息 者 所 在 确切 位 置 的 IP 地 址 。 项 目 启动 之 初 以 一 方 为 美国 境 
外 的 人 或 外 国人 之 间 的 通信 为 限定 范围 ， 但 2007 年 拓宽 至 美国 公民 以 及 居民 。 

“码头 ”项 目的 IP 记录 功能 就 像 是 一 个 导航 记录 , 你 曾经 看 过 的 内 容 ， 曾 经 在 网 上 
发 过 的 帖子 等 ,只 要 它 了 解 你 的 IP 记录 , 它 就 像 在 看 日 记 一 样 地 了 解 你 的 行为 。 对 于 这 
些 信 息 的 追踪 及 分 析 ， 能 切实 知晓 一 个 普通 的 美国 民众 是 否 与 一 个 臭名 昭著 的 恐怖 分 子 
有 所 联系 。 同 样 ， 基 于 这 些 信 息 ， 个 体 的 健康 状况 、 政 治 或 者 宗教 信仰 、 涉 密 的 商业 谈 
判 ， 甚 至 是 否 存在 婚外情 等 状况 ， 都 能 一 目 了 然 。 而 这 恰恰 是 美国 民众 最 为 担心 的 ， 也 
是 美国 政府 极力 回避 的 所 在 。 


6.3.2 上 游 : 截取 全 球 互 联网 数据 


与 “码头 ”类 似 的 监视 项 目 ， 还 有 “上 游 ”( Upstream ) 项 目 ， 其 通过 美国 周边 的 
海底 光缆 搜集 情报 ， 截 取 全 球 互联 网 数据 。 美 国 《华盛顿 邮 报 》2013 年 7 月 10 日 公布 
了 一 张 美国 国家 安全 局 的 机 密 幻灯 片 ， 其 中 对 “棱镜 ”计划 以 及 与 之 平行 展开 的 “上 游 ” 
计划 有 所 介绍 ， 如 图 6-7 所 示 。 

在 这 一 张 最 新 公布 的 演示 图 中 ， 上 半 部 分 蓝 色 框 内 是 “上 游 ”项 目 ， 显 示 了 从 美国 
东西 海岸 延伸 至 世界 各 地 的 深海 光缆 路 线 ， 意 思 是 从 海底 光缆 等 基础 设施 截取 数据 。 海 


底 光缆 对 世界 范围 内 的 数据 传播 极为 重要 ， 对 美国 及 其 盟友 的 监控 项 目 也 有 举足轻重 的 
影响 。 
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图 6-7 美国 “上 游 ”监视 项 目 险 
图 片 下 半 部 分 绿色 框 内 解释 了 “棱镜 "计划, 它 通 过 谷歌 、 微软 脸谱、 雅虎 .Skype、 一 一 一 
PalTalk、Youtube、 苹 果 和 美国 在 线 等 9 家 互联 网 企业 挖掘 数据 , 其 中 的 文字 介绍 是 " 直 131 


接 从 服务 器 上 搜集 信息 "。 

幻灯 片 还 用 黄色 圆圈 提醒 国家 安全 局 人 员 “ 应 利用 两 个 项 目 "。 为 保障 “上 游 ”项 
目的 顺利 实施 , 美国 国家 安全 局 和 国防 部 等 机 构 在 2003 年 与 美国 环球 电讯 公司 签署 (网 
络 安全 协议 》。 据悉， 环球 电讯 公司 的 海底 光缆 覆盖 全 球 四 大 洲 的 27 个 国家 和 地 区 。 在 
过 去 10 年 中 ， 有 更 多 的 电讯 公司 签署 了 类 似 合 作协 议 。 

专家 提醒 

每 个 人 都 期 待 获得 个 性 化 服务 。 但 是 ， 在 大 数据 时 代 ， 想 要 获得 个 性 化 服务 ， 就 一 定 会 

在 某 种 程度 上 牺牲 自己 的 隐私 。 


6.3.3 棱镜 : 备份 全 球 互 联网 数据 


美剧 《疑犯 追踪 》 里 有 这 么 一 件 “神器 " : 它 几乎 无 所 不 能 ， 全 天 候 监视 所 有 人 的 
行踪 ， 聪 明 地 预测 出 谁 是 危险 分 子 ， 谁 会 遭遇 不 测 …… 美 国政 府 用 它 攻击 恐怖 分 子 ， 开 
发 者 则 用 它 拯救 普通 人 。 这 不 只 是 一 部 科幻 剧 , 它 也 出 现在 现实 的 世界 里 , 即 美国 的 “ 棱 
镜 ” 项 目 。 


两 如 冯 疝 曾 三 . 出 滤 才 
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en i 2013 年 的 “棱镜 门 ”事件 。2013 年 6 月 ， 美 国 前 中 情 局 
( CIA ) 职员 爱德华 斯 诺 登 将 两 份 绝密 资料 交 给 英国 《 卫 报 》 和 美国 《华盛顿 邮 报 》， 
te ee 按照 设 定 的 计划 ，2013 年 6 月 5 日 ， 英 国 《 卫 报 》 先 扔 出 了 第 
一 颗 与 论 炸 弹 ， 即 美国 国家 安全 局 有 一 项 代号 为 “棱镜 ”的 秘密 项 目 ， 要 求 电信 巨头 威 
瑞 森 公司 必须 每 天 上 交 数 百 万 用 户 的 通话 记录 。2013 年 6 月 6 日 ,美国 《华盛顿 邮 报 》 
披露 称 ， 过 去 6 年 间 ， 美 国 国家 安全 局 和 联邦 调查 局 通过 进入 微软 、 谷 歌 、 苹 果 、 雅 虎 等 
9 大 网 络 巨 头 的 服务 器 ， 监 控 美 国 公民 的 电子 邮件 、 聊 天 记录 、 视 频 及 照片 等 秘密 资料 。 
“棱镜 ”计划 是 “上 游 ” 项 目的 兄弟 ， 相 当 于 “下 游 ” 项 目 ， 其 收集 的 是 经 过 科技 
公司 加 工 的 数据 。 根 据 报 道 ， 代 号 为 “棱镜 ”的 监视 项 目 从 2007 年 开始 实施 ， 从 未 对 
外 公开 过 。 接 入 互联 网 公司 的 中 心服 务 器 可 以 让 情报 分 析 人 员 直 接 接触 到 所 有 用 户 的 数 
据 ， 通 过 音频 、 视 频 、 照 片 、 电 邮 、 文 件 和 连接 日 志 等 信息 ， 跟 踪 互 联网 使 用 者 的 一 举 
一 动 ， 以 及 他 们 的 所 有 联系 人 ， 如 图 6-8 所 示 。 


“楼 镜 ”项 目 
所 监视 的 内 容 


和 


;电子 邮件 即时 消息 照片 。 存储 数据 


图 6-8 “棱镜 ”监视 的 网 络 信息 类 型 
专家 提醒 

从 技术 角度 看 ， 棱 镜 是 正宗 的 大 数据 武器 。 虽然 还 不 如 《疑犯 追踪 》 里 的 机 器 万 能 ， 但 
足以 让 大 家 担心 个 体 隐 私 不 保 。 人 们 更 害怕 政府 拥有 大 数据 后 ， 权 力 和 能 力 膨胀 ， 必 然 滋生 
腐败 。 数 据 如 万 川 归 海 般 途 经 美国 ，“ 山 姆 大 叔 ” 便 可 架 网 捞 鱼 ， 坐 收 渔 利 。 核 镜 数据 监测 
的 原理 也 是 如 此 ， 就 像 三 棱镜 把 自然 光 分 成 红 、 橙 、 黄 、 绿 、 蓝 、 壕 、 紫 七 色 ， 在 光纤 上 接 
入 “棱镜 ”， 可 以 让 光纤 传输 的 信号 一 览 无 余 ， 通 过 大 数据 系统 进行 分 析 挖掘。 

在 过 去 6 年 中 , “棱镜 ”项 目 经 历 了 爆炸 性 增长 ， 眼 下 美国 国家 安全 局 约 七 分 之 一 
的 情报 报告 依靠 这 一 项 目 提供 原始 数据 。 可 以 说 , “棱镜 ”项 目 以 近乎 实时 备份 的 方式 ， 


备份 了 整个 全 球 互联 网 的 全 部 数据 。 利 用 这 些 备 份 数据 ， 可 以 拼 出 一 个 人 一 生 的 网 络 
足迹 。 

由 此 可 见 ， 因 为 具备 足够 资金 、 技 术 和 不 受 限 的 权力 ， 政 府 机 构 等 大 组 织 是 大 数据 
的 最 大 受益 者 ， 可 肆意 窥探 个 体 的 网 络 活动 和 关联 网 络 。 不 过 ， 现 有 的 大 数据 技术 ， 擅 
长 利用 历史 记录 来 预测 已 有 事物 在 未 来 是 否 出 现 ， 并 不 擅长 判断 从 来 没有 先例 的 事物 。 
要 防范 大 数据 技术 滥 筋 ， 需 要 发 挥 个 体 的 创造 性 ， 不 要 成 为 机 器 眼 里 可 以 预测 的 循 规 路 
和 矩 者 。 


6.3.4 星 风 : 监视 全 球 通信 大 数据 


斯 诺 登 揭 开 的 “棱镜 ”项 目 只 是 美国 政府 秘密 监视 系统 的 “冰山 一 角 "。 据 《 华 盛 
顿 邮 报 》 爆 料 称 ， 斯 诺 登 曝光 的 “棱镜 ”项 目 ， 源 自 此 前 从 未 公开 的 “ 星 风 ” 
( STELLARWIND ) 秘密 监视 计划 。 

“ 星 风 ”计划 成 立 于 2004 年 ， 不 过 由 于 当时 的 法 律 程序 等 敏感 问题 ， 时 任 小 布什 
政府 被 迫 做 出 让 步 ， 缩 减 在 美国 本 土 的 监听 项 目 。 与 此 同时 ， 为 了 避免 “ 星 风 ”计划 的 
天 折 ， 小 布什 政府 将 其 拆 分 为 “棱镜 ”( PRISM ) “主干 道 ”( MAINWA Y )、“ 码 头 ” 
( MARINA ) 以 及 “核子 ”( NUCLEON ) 4 大 项 目 ， 均 交 由 美国 国家 安全 局 ( NSA ) 执 
掌 ， 如 图 6-9 所 示 。 
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图 6-9 “ 星 风 ”计划 的 主要 内 容 

时 至 今日 ,“ 星 风 ” 计 划 对 于 很 多 美国 人 来 说 是 待 解 之 谜 ， 而 唯一 能 大 致 确认 的 则 
是 由 “ 星 风 ”计划 拆 分 出 的 4 个 监视 项 目 ， 它 成 功 帮 助 小 布什 和 奥巴马 政府 对 全 球 范围 
内 的 现代 通信 数据 实行 了 有 效 监控 。 

《华盛顿 邮 报 》 表 示 ,“ 主 干道 ”和 “码头 ”秘密 监视 项 目 分 别 对 通信 和 互联 网 上 
数 以 亿 焰 计 的 “元 数据 ”进行 存储 和 分 析 。 "主干 道 ”项 目 负责 秘密 监视 电话 信息 ， 包 
括 通话 或 通信 的 时 间 、 地 点 、 使 用 设备 、 参 与 者 ， 但 不 会 窃听 通话 内 容 。 从 2009 年 一 
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份 流出 的 机 密 材料 来 看 , 美国 国安 局 花费 了 1.46 亿美 元 的 反恐 基金 购买 硬盘 等 设备 , 用 
于 存储 “主干 道 ”秘密 监视 项 目 上 的 元 数据 。 另 外 两 个 “规模 小 得 多 ”的 “棱镜 ”和 “ 核 
子 ” 秘密 监视 项 目 则 负责 截取 内 容 。 其中， 用 来 截获 电话 通话 内 容 及 关键 词 的 叫 “ 核 子 ” 
秘密 项 目 。 

尽管 按照 美国 情报 部 门 的 说 法 ， 这 些 秘密 监视 项 目的 目标 都 是 “外 国人 "， 但 事实 
上 ， 四 大 情报 搜集 计划 牵涉 的 范围 极为 广泛 ， 从 某 种 程度 上 说 ， 几 乎 可 触及 每 一 个 美国 
家 庭 。 


专家 提醒 
元 数据 (Metadata ) 是 指 在 地 理 空间 信息 中 用 于 描述 地 理 数 据 集 的 内 容 、 质 量 、 表 示 方 
式 、 空 间 参考 、 管 理 方式 以 及 数据 集 的 其 他 特征 的 数据 ， 它 是 实现 地 理 空间 信息 共享 的 核心 
标准 之 一 。 例 如 , 在 对 电话 和 互联 网 监视 的 语义 下 ,元 数据 主要 指 通话 或 通信 的 时 间 、 地 点 、 
使 用 设备 、 参 与 者 等 ， 不 包括 电话 或 邮件 的 内 容 。 在 美国 ， 法 律 对 于 元 数据 的 保护 很 少 。 而 
根据 新 技术 ， 监 视 机 构 有 效 挖 握 元 数据 的 能 力 ， 已 经 比 窃听 和 截取 通信 内 容 更 加 重要 。 


6.3.5 小 甜 饼 : 窃取 个 人 网 络 隐私 


2014 年 新 年 即将 到 来 ,笔者 好 友 张 莉 经 常 浏览 汽车 网 站 , 准备 买 台新 车 回老家 过 年 。 
不 久 ， 张 莉 便 发 现 ， 在 看 了 几 个 汽车 网 站 后 ， 即 便 是 在 与 汽车 无 关 的 页 面 ， 也 看 到 了 比 
过 去 更 多 的 汽车 广告 。 这 就 是 Cookies 在 “作怪 "， 电 脑 中 的 Cookies 记录 了 张 莉 对 汽 
车 的 兴趣 ， 便 向 她 推送 相关 的 广告 。 

“通过 Cookies， 我 们 什么 都 能 知道 ， 包 括 你 的 性 别 、 年 龄 、 职 业 、 收 入 。”2013 
年 央视 “3， 15 晚会 ”上 这 上段 关于 Cookies 泄露 个 人 隐私 的 视频 ， 让 原本 “默默 无 闻 ” 
的 IT 术语 一 夜 之 间 红 遍 了 全 国 。 

Cookies ( 昵称 为 “小 甜 饼 " ) 也 被 称 为 HTTP Cookies、 网 络 Cookies 或 浏览 器 
Cookies， 它 是 当 用 户 浏览 网 页 时 ， 网 络 服务 器 以 文本 格式 存储 在 用 户 电脑 硬盘 上 的 少 
量 数 据 。Cookies 的 主要 目的 在 于 帮助 网 站 记忆 用 户 之 前 可 能 进行 的 操作 ， 自 1993 年 
问世 至 今 已 经 过 去 了 整整 20 年 。 

对 普通 用 户 来 说 ，Cookies 主要 用 来 判定 注册 用 户 是 否 已 经 登录 网 站 ， 这 样 可 以 免 
去 用 户 重复 登录 网 站 的 麻烦 ， 试 想 如 果 你 刷新 一 次 微 博 都 需要 重新 登录 ， 想 必 就 没有 多 
少 人 愿意 上 网 了 。Cookies 的 另外 用 途 是 网 上 购物 的 “购物 车 ”功能 。 用 户 可 能 会 在 一 
段 时 间 内 在 同一 家 网 站 的 不 同 页 面 中 选择 不 同 的 商品 , 这 些 信 息 都 会 写 入 Cookies 以 方 
便 最 后 网 购 结账 。 

但 是 , 某 些 第 三 方 广告 公司 往往 通过 采取 在 网 站 加 代码 的 方式 窃取 用 户 的 Cookies， 
这 些 Cookies 几乎 覆盖 了 所 有 网 民 群 体 ， 并 通过 分 析 Cookies 来 收集 用 户 的 IP 地 址 、 


账号 、 身 份 、 联 系 方式 等 信息 ， 用 于 广告 营销 ， 但 这 显然 没有 充分 尊重 用 户 的 知情 权 和 


选择 权 。 


Cookies 的 存在 最 初 是 为 了 方便 用 户 使 用 ， 然 而 被 一 些 有 商业 企图 的 机 构 在 用 户 并 
不 知情 的 情况 下 ， 采 集 并 加 以 商业 运作 ， 那 就 是 不 折 不 扣 的 违法 行为 ， 正 是 这 种 “网 络 


臭虫 ”的 存在 ， 让 Cookies 有 了 隐患 ， 危 及 到 用 户 的 隐私 安全 。 


“网 络 臭虫 ”通过 在 用 户 广泛 访问 的 网 页 上 放置 一 个 像素 大 小 的 图 片 ( 代码 )， 而 
用 户 根本 看 不 到 这 张 图 片 。“" 网 络 臭虫 ”的 工作 就 是 通过 获取 Cookies 来 获知 用 户 的 浏 
览 习惯 ， 进 行 隐 蔽 的 跨 网 站 跟踪 行为 。 这 个 页 面 一 天 内 如 果 有 1000 万 人 访问 ， 那 么 该 
公司 一 天 就 获取 了 1000 万 份 个 人 信息 。 更 可 怕 的 是 ， 网 络 黑客 可 以 通过 木马 病毒 盗 取 
用 户 的 Cookies， 直 接 骗取 网 站 信任 ， 无 需 输 入 用 户 的 账号 和 密码 即 可 登录 网 站 。 

针对 这 个 问题 ， 微 软 公司 最 新 的 IE 10 浏览 器 中 默认 开启 DNT ( Do Not Track， 直 
译 也 就 是 “不 追踪 ” ) “禁止 跟踪 ”功能 。 另 外 ， 国 内 的 360 安全 浏览 器 都 推出 了 “禁止 
跟踪 ”功能 ， 可 以 有 效 阻 止 某 些 网 站 的 Cookies 跟踪 和 跨 站 跟踪 行为 ， 对 于 那些 不 遵守 
禁止 跟踪 协议 的 网 站 ,许多 浏览 器 还 提供 了 隐私 保护 浏览 器 模式 以 及 Cookies 清理 功能 。 
时 ， 许 多 浏览 器 软件 推出 的 多 项 清理 功能 ， 也 无 疑 给 用 户 提供 了 自主 保护 个 人 隐私 的 


工具 。 如 图 6-10 所 示 为 搜狗 浏览 器 的 “清除 浏览 记录 ”对 话 框 。 


选择 要 清除 的 信息 : 
加 青空 侧 边栏 历史 记录 

川 “加 青空 最 近 关闭 网 页 列表 
加 青空 地 址 栏 下 拉 列表 
器 消 空 下 载 记录 
加 清空 自动 十 写 的 志 单 数据 
癌 清空 网 页 缓存 文件 


辐 咯 除 Cookies 〈 不 推荐 ) 


每 次 关闭 浏览 器 青 除 前 提示 用 户 
加 每 次 关闭 浏览 器 后 青 除 


全 使 胃 账 户 登 录 ， 保 护 浏 鉴 隐私 


图 6-10 ”搜狗 浏览 器 的 “清除 浏览 记录 ”对 话 杠 
尽管 如 此 ， 笔 者 建议 用 户 还 应 从 自身 做 起 ， 不 要 在 不 清楚 来 源 的 网 页 上 填写 任何 个 
人 信息 ， 例 如 你 的 年 龄 、 性 别 、 收 入 等 ， 你 在 不 同 网 站 填写 的 信息 很 可 能 会 被 其 他 人 获 


取 后 整合 得 到 你 的 全 部 信息 。 


6.3.6 ”间谍 软件 : 让 我 们 无 处 藏身 


在 大 数据 时 代 , 聪明 人 已 经 极端 地 依靠 互联 网 来 达到 各 种 目的 , 其 中 最 重要 的 就 是 : 
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发 现 用 户 ， 研 究 用 户 ， 最 终 控制 用 户 。 互 联网 之 父 ， 英 国 南 安普敦 大 学 的 计算 机 科学 教 
授 伯 纳 斯 * 李 曾 经 说 过 :“ 我 很 担心 通过 搜集 在 线 数据 描绘 网 络 用 户 特征 和 详细 了 人 解 用 
户 的 习惯 。 避 免 这 种 宇 探 行为 是 非常 重要 的 。 

随 着 网 民 数量 的 急剧 增长 和 移动 网 络 的 普及 ， 网 民 在 电脑 或 手机 设备 上 存储 的 账 
号 、 密 码 等 机 密 信 息 也 越 来 越 多 ， 以 窃取 用 户 机 密 文件 和 个 人 隐私 为 目的 的 “间谍 ” 软 
件 已 经 超过 传统 意义 上 的 病毒 成 为 网 民 的 最 大 威胁 。 

“间谍 软件 ”是 一 个 概括 性 的 术语 ， 用 来 描述 通常 未 事先 适当 征求 用 户 同意 便 执 行 
某 些 行为 的 软件 。 间 谍 软 件 能 够 在 用 户 不 知情 的 情况 下 ， 在 其 电脑 上 安装 “后 门 "， 搜 
集 、 使 用 并 散播 用 户 的 个 人 信息 或 敏感 信息 ， 如 图 6-11 所 示 。 


中 了 间谍 软件 
的 电脑 或 手机 


6-11 间谍 软件 的 作用 


据悉 ， 英 国 网 络 安全 公司 ScanSafe 近期 推出 一 项 新 型 的 间谍 软件 屏蔽 管理 服务 ， 
在 对 该 软件 进行 的 10 周 示范 运行 时 ， 公 司 发 现 从 受 感染 计算 机 发 出 的 间谍 软件 通信 流 
量 能 占 到 总 网 络 流出 流量 的 8%。 此 外 ， 间 谍 软 件 现在 变 得 越 来 越 独 犹 了， 它们 把 其 外 
出 流量 夹杂 在 正常 的 网 络 流量 之 中 。 对 于 电脑 用 户 来 讲 ， 感 染 上 这 些 间谍 软件 会 导致 他 
们 电脑 中 的 私人 信息 失窃 。 

ScanSatfe 公司 称 ， 目 前 间谍 软件 共 占 网 络 盗窃 事件 的 20%， 目 前 还 有 增长 的 趋势 。 
一 些 恶 意 程序 如 CoolWebSearch 现在 采用 新 开发 的 root-kit 结构 ， 可 以 躲 过 杀毒 扫描 。 

对 付 间谍 软件 是 一 场 永 远 不 可 能 结束 的 战争 。 这 已 经 成 为 现代 计算 环境 中 一 道 “ 亮 
丽 ” 的 风景 线 。 而 且 像 所 有 的 战争 一 样 ， 与 间谍 软件 的 战争 也 涉及 防御 和 进攻 的 策略 问 
题 。 正 确 运用 下 面 的 一 些 技巧 可 以 帮助 你 免 受 恶意 程序 设计 人 员 和 黑客 的 危害 。 

> 防火墙 防火 墙 就 像 站 在 你 的 计算 机 或 私有 网 络 门口 的 一 位 “警卫 员 "， 它 会 阻止 

进入 或 发 出 的 不 符合 设 定 标准 的 数据 通信 。 
> 反 和 间谍 软件 : 主要 用 于 搜 出 计算 机 内 隐藏 的 间谍 软件 、 特 洛 伊 木马 、 蠕 虫 等 ， 是 


迎战 黑客 和 间谍 程序 的 有 利 武 器 。 同 时 ， 要 保证 你 的 反 间 谍 软 件 程序 拥有 自动 更 
新 特性 。 

> ”查看 邮件 要 小 心 : 在 多 数 情况 下 ， 查 看 电子 邮件 需要 格外 当心 。 最 起 码 不 要 打开 
来 自 并 不 认识 的 人 或 组 织 的 附件 ， 还 要 提防 那些 “ 道 貌 岸 然 ” 的 像 是 来 自 某 个 官 
方 网 站 的 邮件 ， 它 们 可 能 向 你 索要 关键 信息 。 

> 正常 关机 : 为 了 保护 你 自己 ， 在 不 想 用 电脑 时 可 将 其 关闭 。 如 果 你 实在 不 愿意 关 
闭 电 源 ， 可 以 在 不 使 用 网 络 时 ， 通 过 防火 墙 或 其 他 方式 关闭 网 络 连接 。 


6.4 ”有 疾 无 患 ， 做 好 大 数据 风 暗 管 


避免 大 数据 的 管理 风险 的 第 一 要 务 ， 并 非 是 技术 或 产品 上 的 实施 与 部 署 ， 最 重要 的 
应 该 是 策略 与 理念 上 的 转变 : 大 数据 首先 不 是 机 遇 而 是 挑战 ， 首 先 需要 着 手 解决 的 不 是 
数据 分 析 、 利 用 ， 而 是 将 数据 更 好 地 存储 与 管理 起 来 ， 这 才 是 大 数据 时 代 首 先 要 做 的 
事情 。 


6.4.1 风险 管理 利器 1: IBM StorWize V7000 


在 数据 管理 时 ， 将 所 有 数据 放 在 一 个 地 方 是 有 很 大 风险 的 ， 为 了 数据 的 安全 ， 数 据 
应 该 存储 于 不 同 的 地 方 。 如 数值 数据 可 以 存储 在 数据 库 里 ， 非 结构 化 的 数据 则 可 以 存储 
在 文档 或 者 表格 里 。 这 样 将 风险 信息 可 能 的 来 源 进行 了 细 分 ， 意味 着 我 们 可 以 迅速 了 解 
综合 风险 状况 。 

在 如 今 的 存储 管理 环境 下 ， 打 破 复杂 性 升 高 和 数据 爆炸 式 增长 的 循环 可 能 是 一 大 挑 
战 ， 购 买 和 管理 存储 设备 的 老 办 法 已 变 得 不 那么 有 效 。IBM StorWize V7000 是 IBM 最 
新 发 布 的 一 款 中 端 存储 产品 ， 在 发 布 这 款 新 产品 之 前 ，IBM 特意 为 其 制作 了 具有 强烈 神 
秘 感 的 广告 ， 并 宣称 这 将 是 “改变 存储 游戏 规则 ”的 产品 ， 如 图 6-12 所 示 。 


全 


6-12 IBM StorWize V7000 
确实 ，IBM 一 直 是 主打 性 能 稳定 的 招牌 ， 其 中 这 款 IBM StorWize V7000 作为 目前 


热卖 的 磁盘 列 阵 ， 它 可 充分 保护 企业 的 数据 安全 ， 该 机 支持 12 块 3.5 英寸 磁盘 驱动 器 ， 
用 户 在 不 中 断 系 统 运 行 的 情况 下 ， 可 以 将 数据 迁 出 现 有 存储 设备 ， 从 而 简化 实施 流程 并 
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且 可 最 大 限度 地 避免 用 户 服务 中 断 。 

IBM StorWize V7000 为 用 户 提供 了 与 虚拟 化 服务 器 环境 互 为 补充 的 虚拟 化 存储 系 
统 ， 其 具有 无 与 伦比 的 性 能 、 可 用 性 、 先 进 的 功能 和 高 度 可 扩展 的 容量 。 配 置 的 方面 ， 
IBM StorWize V7000 高 速 缓存 达到 8GB， 每 个 机 柜 可 以 组 合 12 个 SAS 驱动 器 ， 支 持 
RAID 0、1、5、6 和 10 接口 ， 并 且 硬 盘 转 速达 到 10000rpm、 近 线 7200rpm， 可 谓 是 
性 能 强悍 。 

通常 情况 下 ， 在 多 套 存 储 系统 中 ， 统 一 执行 存储 层 的 数据 灾 备 可 以 说 是 难 上 加 难 的 
工作 ， 不 仅 需 要 分 别 购置 和 部 署 每 套 存 储 上 的 远程 复制 功能 ， 而 且 很 难 协调 不 同 存储 间 
的 数据 一 致 性 关系 。 当 不 同 阵列 都 归 在 IBM StorWize V7000 下 时 ， 一 切 又 恢复 到 比较 
简单 、 类 似 单 台 存储 做 灾 备 的 环境 。 

传统 模式 下 ， 一 个 数据 中 心 起 步 阶段 采用 低 端 小 存储 ， 随 着 业务 量 增加 ， 不 断 更 新 
到 更 高 端的 存储 上 。 这 样 不 仅 投入 较 大 ， 而 且 每 次 升级 对 应 用 系统 会 带 来 一 定 风 险 及 停 
顿 ( 如 数据 从 低 端 迁移 到 高 端 )。 然 而 ，IBM StorWize V7000 可 以 从 低 端 起 步 ， 通 过 横 
向 扩容 ( 集群 ) 的 方式 ， 增 加 控制 器 及 容量 ， 其 可 随 数 据 及 业务 量 的 增长 ,平滑 有 序 地 
升级 成 更 高 端 存储 系统 。 另 外 , IBM StorWize V7000 的 外 置 虚拟 化 能 力也 带 来 极 大 升级 
空间 ， 最 大 32PB 的 虚拟 化 空间 足以 满足 大 部 分 云 存储 的 需求 。 


6.4.2 ”风险 管理 利器 2: EMC VNX 系列 


从 数量 上 来 看 ， 大 数据 的 “可 怕 ” 之 处 首先 就 在 于 它 的 “大 "， 也 就 是 数据 的 规模 
化 效应 ， 以 现 有 的 手动 和 人 工 的 方式 自然 是 不 能 够 很 好 应 对 的 ， 因 此 ， 重 要 的 是 要 有 高 
度 自动 化 的 解决 方案 来 应 对 。 

笔者 注意 到 ， 市 场 上 很 多 的 产品 都 开始 在 简化 管理 界面 、 加 强 自动 化 与 智能 策略 管 
理 上 下 工夫 ,无 论 是 如 今 正 当主 流 的 IBM StorWize V7000 还 是 EMC 推出 的 VNX 系列 ， 
自动 化 程度 都 非常 高 。 

EMC VNX 系列 有 两 个 分 系列 ， 分 别 是 VNXe 系列 和 VNX 系列 ，VNXe 系列 适用 对 
象 是 中 小 型 企业 ，VNX 系列 的 使 用 对 象 是 大 中 型 企业 ， 如 图 6-13 所 示 。 因 定位 的 不 同 ， 
它们 在 所 支持 的 协议 、 可 扩展 的 接口 、 存 储 处 理 器 CPU 和 内 存 ( 及 缓存 )、 最 大 硬盘 数 
和 对 复制 软件 的 支持 上 都 会 有 所 不 同 。 


图 6-13 EMC VNX 系列 产品 


EMC 最 新 发 布 的 产品 VNXe 是 一 款 整合 程度 更 高 的 系统 ， 它 采用 了 新 版 本 的 VNOX 
操作 系统 ， 配 备 了 一 款 双 核 英特尔 处 理 器 和 4GB RAM; 在 设置 上 更 加 简单 ， 同 时 增加 
了 CLARiiON 和 Celerra 源 技术 所 不 具备 的 各 项 管理 和 支持 功能 。 

专家 提醒 

以 往 ， 人 们 认识 的 数据 修复 技术 往往 是 “ 回 存 ” 技 术 ， 就 是 要 把 备份 数据 介质 倒 回 生产 
系统 中 ， 然 后 等 待 恢复 的 效果 和 业务 的 启动 ， 这 种 技术 存在 众多 风险 。 首 先是 在 漫长 的 数据 
恢复 之 前 ， 完 全 无 法 预料 恢复 时 间 和 恢复 可 靠 性 。 其 次 ， 一 旦 恢复 成 功 ， 却 发 现 恢复 的 数据 
并 非 自己 需要 的 时 间 点 数据 ， 或 者 需要 的 数据 不 存在 ， 这 时 已 完全 无 法 回 退 到 初始 状态 ， 系 
统 将 进入 更 为 严重 的 不 可 控 状 态 。 

VNXe 的 易 用 性 很 强 ， 配 备 了 Unisphere 向 导 设 置 程序 、 针 对 应 用 程序 优化 的 管理 
功能 以 及 EMC 所 说 的 一 键 帮助 和 支持 功能 ， 即 用 户 只 需 一 步 操作 即 可 进入 自动 诊断 、 
服务 状态 及 进入 自助 式 用 户 社区 。VNXe 产品 以 非常 直观 的 管理 界面 ， 让 用 户 可 以 通过 
七 八 步 ， 在 2 分 钟 内 为 500 个 Exchange 邮箱 或 1TB 的 Vmware 数据 存储 配置 好 存储 
容量 。 

其 中 ，VNXe 3100 采用 2U 或 3U 标准 工业 设计 的 机 架 式 机 箱 ， 标 配 系 统 中 除了 附 
带 用 于 SAS 和 iSCSI 连接 的 1Gbps 的 以 太 网 连接 ， 还 有 Flexl/O 插 槽 ， 其 可 提供 额外 
的 1Gbps 端口 ， 为 扩展 连接 更 多 的 设备 并 提高 性 能 提供 了 先决 条 件 。 并 且 在 容量 方面 ， 
还 提供 简单 的 容量 扩展 ， 最 大 可 添加 96 个 SAS 驱动 器 ， 按 1TB 的 SAS 驱动 器 容量 计 
算 ， 其 最 大 可 扩 至 96TB 的 存储 容量 。 

自动 化 、 块 数据 与 文件 数据 的 统一 存储 及 虚拟 化 带 来 的 存储 系统 整合 ， 这 些 方法 都 
能 够 有 效 降低 数据 存储 尤其 是 大 数据 存储 的 风险 。 


6.4.3 ”风险 管理 利器 3: 戴尔 EqualLogic 平台 


如 今 ， 数 据 信 息 成 为 了 商业 价值 的 核心 部 分 。 由 于 实时 获取 数据 、 企 业 移动 计算 和 
虚拟 化 普及 等 需求 的 推动 ， 预 计 从 现在 一 直到 2020 年 ， 企 业 存储 每 年 将 以 60% 以 上 的 
速度 增长 ， 这 一 数字 并 不 令 人 感到 意外 。 平 均 来 讲 ， 每 18 个 月 企业 数据 便 会 翻 一 番 。 
但 实际 上 ， 似 乎 多 数 企业 对 管理 数据 增长 做 得 不 够 好 ， 而 要 依靠 不 见 增长 的 预算 来 完成 
这 一 任务 ， 这 其 中 就 存在 很 大 的 风险 。 

因此 ,用 户 可 以 考虑 采用 戴尔 EqualLogic 平台, 其 无 颖 扩展 的 架构 和 智能 阵列 软件 ， 
可 以 与 企业 第 一 层 应 用 和 虚拟 环境 自然 集成 ， 从 而 帮助 企业 高 效 地 管理 数据 ， 却 不 会 增 
加 复杂 性 。EqualLogic 的 自动 化 功能 可 以 帮助 企业 每 年 将 常见 存储 任务 的 管理 时 间 大 幅 
降低 ， 将 虚拟 机 ( VM ) 部 署 提速 超过 70% 以 上 。 

例如 ，EqualLogic FS7500 是 唯一 针对 中 小 规模 部 署 进行 过 优化 的 横向 扩展 统一 存 


. .请 噬 才 


从 
海 
晶 
到 
惟 


加 | 本 = 济 灾 4 于 消 . 帮 名 


储 体系 结构 ， 借 助 它 可 以 无 中 断 地 增 大 块 和 文件 的 容量 ， 如 图 6-14 所 示 。 
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图 6-14 EqualLogic FS7500 


专家 提醒 

大 数据 灾 备 系统 的 有 效 性 问题 涉及 灾 备 建设 的 实际 目标 和 符合 目标 的 灾 备 技术 路 线 , 要 
清楚 认识 灾 备 系统 的 有 效 性 问题 ， 人 们 必须 领悟 到 一 个 更 深层 次 的 道理 : 灾 备 系统 的 建设 要 
求 灾难 防御 全 方位 ， 不 能 只 防 小 概率 的 自然 灾害 ， 更 要 防止 概率 大 的 设备 故障 和 逻辑 故障 ， 
严密 的 多 方位 防护 网 才 是 取胜 之 道 。 

未 来 与 存储 密切 相关 的 两 个 挑战 : 一 是 非 结构 化 数据 的 迅猛 增长 对 于 全 球 的 企业 用 
户 而 言 都 是 一 个 相当 头疼 的 问题 ; 二 是 企业 数据 中 心 面临 着 向 虚拟 化 、 云 计算 转型 的 需 
求 。 毫 无 疑问 ， 戴 尔 EqualLogic 作为 戴尔 最 重要 的 存储 平台 ， 必 须要 能 完美 地 帮助 企业 
迎接 这 些 挑战 ， 这 样 才能 赢得 自身 的 胜利 。 
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6.4.4 风险 管理 利器 4: NetApp FAS 平台 


NetApp FAS 系列 产品 的 控制 器 承担 了 所 有 工作 ， 包 括 RAID、 文 件 系统 、 网 络 IO、 
双 机 集群 ( HA ) 系统 等 ， 它 是 一 个 完整 的 、 一 体 的 产品 ， 如 图 6-15 所 示 。 


6-15 NetApp FAS 系列 产品 


下 面 以 NetApp 入 门 级 FAS2000 系列 中 的 最 新 成 员 NetApp FAS2240 为 例 ， 介 绍 
NetApp FAS 系列 产品 的 主要 特点 ， 如 表 6-1 所 示 。 


表 6-1 NetApp FAS 系列 产品 的 主要 特点 


主要 特点 细节 说 明 和 
性能 和 可 扩 | NetApp FAS2240 的 性 能 比 以 往 产品 提升 了 两 到 三 倍 ， 因 而 灵活 性 也 得 以 提高 ， 所 
便于 客户 最 大 限度 地 利用 存储 资源 ， 支 持 要 求 苛刻 的 工作 负载 ， 并 根据 业务 需 “四 
求 的 变化 添加 增强 功能 2 
匡 辣 证 该 管理 工具 简单 、 易 于 使 用 并 随 附 于 购买 的 系统 中 ， 其 可 帮助 用 户 提高 存储 和 由 
服务 效率 以 及 生产 率 ， 并 减少 存储 管理 对 有 限 IT 资源 的 影响 = 
二 FAS2000 系列 运行 最 新 版 本 的 Data ONTAP 操作 系统 ， 可 为 用 户 提供 一 个 支持 
多 种 工作 负载 且 具 备 高 灵活 性 的 可 扩展 统一 平台 , 帮助 他 们 满足 不 断 增 长 的 业 
ONTAP 
务 需 求 
可 扩展 的 统 | NetApp 提供 真正 统一 且 可 扩展 的 架构 ， 支 持 客户 轻松 且 经 济 地 升级 到 更 高 端 
一 区 的 系统 和 新 功能 ， 而 无 需 执行 “又 车 式 ” 升 级 。NetApp 的 创新 型 统一 平台 可 
帮助 用 户 构建 高 效 灵活 的 可 扩展 基础 架构 ， 满 足 目 前 和 未 来 的 需求 
行业 领 玩 的 “| NetApp 可 提供 行业 领先 的 效率 ， 因 此 中 型 企业 的 用 户 可 从 中 受益 。 其 他 存储 
ja 供应 商 只 提供 一 两 种 存储 效率 技术 ， 而 NetApp 提供 9 种 集成 的 技术 ， 可 以 帮 


助 用 户 节省 大 量 资金 
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6.5 ”大 数据 风 隐 管理 应 用 案 倒 


人 


大 数据 时 代 的 来 临 ， 对 中 国 来 说 面临 安全 管理 能 力 、 存 储 及 处 理 能 力 、 应 用 能 力 和 
人 才 培 养 能 力 等 多 方面 的 新 挑战 。 对 于 很 多 企业 来 说 ， 大 数据 并 不 意味 着 机 遇 或 是 商业 
上 的 无 限 潜力 ， 在 他 们 能 够 很 好 地 管理 数据 之 前 ， 大 数据 只 意味 着 风险 和 无 穷 无 尽 的 烦 
恼 。 那么 , 如 何 解决 大 数据 的 风险 和 烦恼 呢 ? 本 节 主 要 介绍 大 数据 风险 管理 的 应 用 案例 ， 
希望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


6.5.1 【案例 】 “闪电 计划 ”为 数据 护航 


不 久 前 ，EMC 发 布 了 传说 已 久 的 “闪电 计划 ”， 并 推出 了 VFCache， 其 旨 在 通过 利 
用 闪存 的 快速 读 写 优势 来 加 速 数据 流通 速度 ， 加 强 服 务 器 与 外 部 存储 系统 之 间 的 联系 ， 
如 图 6-16 所 示 。 特 别 是 针对 关键 应 用 环境 中 具有 涡轮 增 压 性 能 的 服务 器 闪存 缓存 解决 
方案 ， 通 过 提供 线 内 重复 数据 消除 功能 ， 设 立 了 企业 闪存 效率 的 新 标杆 。 
同时 , EMC 通过 实现 VFCache 与 VMware@ vSphere@ vMotion 之 间 的 新 的 互 操作 
性 ， 使 得 虚拟 机 可 在 由 VFCache 加 快 的 环境 中 实现 无 缝 、 灵 活 地 移动 ， 这 扩展 了 其 在 
VMware 环境 的 领导 地 位 。EMC 继续 投资 于 业界 最 全 面 的 闪存 产品 组 合 , 在 保持 网 络 存 


储 的 高 可 用 性 、 灾 难 恢 复 、 数 据 完整 性 和 可 靠 性 等 优点 的 同时 ， 提 供 闪 存 具备 的 所 有 性 
能 优势 。 
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6-16 VFCache 


在 存储 界 中 ,磁盘 阵列 中 采用 Flash 技术 的 磁盘 通常 被 称 为 SSD， 随 着 对 高 性 能 的 
要 求 和 Flash 技术 的 价位 的 快速 拉 低 引 发 了 “caching tier ( 缓冲 层 )”。 缓 冲 层 是 一 个 使 
用 Flash 技术 的 大 容量 第 二 级 cache， 它 位 于 服务 器 与 存储 磁盘 之 间 。 

EMC 的 VFCache 是 一 个 面向 服务 器 的 Flash-cache 解决 方案 , 它 运 用 了 智能 cache 
软件 和 PCle( Peripheral Component Interface Express, 总 线 和 接口 标准 ) Flash 技术 ， 
旨 在 解决 延 时 间 题 和 加 速 带 宽 , 最 终 可 以 极 大 地 提高 应 用 性 能 。 VFCache 的 技术 亮点 如 
表 6-2 所 示 。 


| 画 忆 注 类 》4 夺 .二 者 


表 6-2 VFCache 的 技术 亮点 

技术 亮点 具体 说 了 明 
EMC 正在 发 挥 其 在 备份 环境 中 的 重复 数据 消除 的 领导 能 力 , 并 将 该 技术 应 用 
到 高 速 闪存 缓存 领域 。 通 过 更 大 的 高 效 闪存 对 缓存 数据 进行 线 内 重复 数据 消 


ii 除 ， 在 “重复 消除 ”收益 很 高 的 应 用 环境 中 ，VFCache 的 闪存 缓存 容量 显著 
提高 ， 并 极 大 地 延长 了 闪存 卡 的 预期 寿命 
深度 集成 在 虚拟 、 存 储 和 服务 器 层面 上 ，VFCache 实现 了 更 深度 的 集成 ， 使 关键 任务 


应 用 环境 最 大 化 

VFCache 是 当今 最 快 的 PCIe 服务 器 闪存 缓存 解 决 方案 。VFCache 被 置 于 服 
涡轮 增 压 的 务 器 中 ， 热 数据 无 需 从 网 络 穿 过 以 到 达 存 储 阵列 ， 这 使 吞吐 量 在 某 些 情况 下 
性 能 达到 3 倍 的 提升 ， 并 减少 60% 的 延迟 。 通 过 PCIe 闪存 卡 实现 更 高 的 吞吐 量 
和 反应 速度 ， 需 要 的 CPU 和 内 存 资源 却 比 竞争 产品 少 4 倍 

VFCache 与 VMware vSphere vMotion 之 间 的 互 操 作 性 , 使 其 更 快 、 更 易于 实 


ee 现 持续 正常 、 流 畅 地 运行 ， 以 及 完整 的 环境 维护 ， 并 使 迁移 顺利 进行 ， 这 有 
助 于 客户 加 快 其 云 计 算 之 旅 
智能 组 VFCache 在 服务 器 上 实现 了 新 一 层 的 高 性 能 存储 。VFCache 将 EMC FAST 架 


存 策略 构 延 展 到 支持 一 个 智能 的 端 到 端的 数据 分 层 和 存储 到 服务 器 的 缓存 策略 


续 表 


VFCache 的 最 新 版 本 支持 每 个 服务 器 有 多 块 PCIe 卡 ， 并 提供 更 多 容量 选择 ， 


. .请 噬 才 


性 能 更 佳 可 支持 新 的 700GB PCIe 卡 以 缓存 更 大 的 工作 集 ， 并 为 客户 提供 更 优 性 能 ， 
可 通过 调整 VFCache 缓存 算法 进而 降低 延迟 时 间 
从 业 统 VFCache 通过 将 全 盘 数 据 “ 透 写 式 缓存 ”到 存储 阵列 使 客户 受益 ， 使 数据 拥 


有 可 用 性 、 完 整 性 、 可 靠 性 和 灾难 恢复 的 存储 解决 方案 。 无 需 任何 元 殉 的 存 
储 ， 这 些 信息 依然 可 分 享 和 可 扩展 
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【 案例 解析 } 在 本 案例 中 , VFCache 的 发 布 使 EMC 成 为 第 一 家 运用 PCle 闪存 技 
术 帮 助 客户 以 合理 的 成 本 ， 满 足 客户 需要 的 数据 保护 和 数据 智能 ， 来 确保 其 关键 应 用 达 
到 新 的 性 能 高 度 的 公司 ， 为 大 数据 项 目 风险 管理 构筑 了 一 道 坚实 的 “城墙 "。 

当前 ， 我 国 大 数据 存储 、 分 析 和 处 理 的 能 力 还 很 薄弱 ， 与 大 数据 相关 的 技术 和 工具 
的 运用 也 相当 不 成 熟 ， 大 部 分 企业 仍 处 于 IT 产业 链 的 低 端 。 我 国 在 数据 库 、 数 据 仓 库 、 
数据 挖掘 以 及 云 计 算 等 领域 的 技术 ， 普 遍 落后 于 国外 先进 水 平 。 笔 者 认为 ， 我 国 如 何 借 
用 国外 先进 的 技术 平台 , 借用 其 对 大 数据 资源 的 存储 和 整合 能 力 , 实现 从 大 数据 中 发 现 、 
挖掘 出 有 价值 的 信息 和 知识 ， 是 当前 我 国 大 数据 存储 和 处 理 所 面临 的 挑战 。 


6.5.2 【案例 】 智慧 存储 化 解 大 数据 风险 


服务 器 与 存储 融合 的 趋势 日 趋 明 显 ， 而 纯粹 的 存储 厂商 做 服务 器 闪存 卡 更 是 有 代表 
性 的 大 事件 ，EMC VFCache 一 道 “ 闪 电 ” 拉 开 了 存储 大 佬 们 的 闪存 之 争 的 序幕 。 虽 然 
IBM 已 有 eXFlash 这 样 的 闪存 技术 ， 但 是 在 这 场 争 夺 战 中 ，IBM 似乎 显得 有 些 低调 。 

那么 , 对 于 IBM 这 样 既 有 服务 器 又 有 存储 业务 的 厂商 来 说 ,在 大 数据 方面 又 有 怎样 
的 动作 呢 ?” 为 了 帮助 更 多 企业 把 握 “ 大 数据 ”机遇 ,化解 大 数据 在 企业 内 部 的 风险 友 加 ， 
IBM “智慧 存储 ”战略 帮助 企业 CIO 更 加 有 效 地 收集 并 提取 信息 , 合理 分 析 并 加 以 利用 ， 
借助 这 种 更 加 灵活 、 高 效 和 简单 的 方法 管理 企业 信息 架构 。 

例如 ，IBM 近期 提高 了 多 个 产品 的 效率 和 性 能 ， 如 表 6-3 所 示 。 
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表 6-3 ”IBM 近期 增强 的 产品 和 策略 


产品 策略 增强 方面 
面向 中 小 企业 的 IBM System | 这 些 产品 现 已 具备 增强 型 闪 速 复制 功能 ， 能 够 多 复制 50% 的 快 
Storage DS3500 及 采购 高 密 | 照 ， 从 而 加 快 备份 速度 ; 此 外 ， 精 简 调配 功能 可 将 未 用 容量 保 
度 设 计 、 可 构建 高 性 能 计算 | 存在 存储 资源 池 中 ， 以 便 按 需 提 供给 应 用 使 用 ， 从 而 能 够 提高 
环境 的 DCS3700 磁盘 存储 器 的 利用 率 ， 同 时 降低 存储 成 本 
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IBM 磁带 系统 库 管理 器 IBM Tape 
System Library Manager (TSLM) 


续 表 
增强 方面 
能 够 给 客户 提供 多 个 磁带 库 的 单一 综合 视图 ， 从 而 扩展 IBM 
TS3500 磁带 库 的 使 用 范围 并 且 简 化 其 使 用 流程 .TSLM 能 够 
与 多 代 企业 级 和 LTO 驱动 器 及 介质 互 操作 , 从 而 将 数据 保存 
在 单一 磁带 储备 库 中 , 并 且 人 允许 企业 通过 IBM Tivoli Storage 
Manager 集中 管理 这 个 磁带 库 


IBM 线性 磁带 文件 系统 (LTFS) 
存储 管理 器 


允许 客户 使 用 IBM LTO 5 磁带 库 及 IBM LTFS Library Edition 
针对 大 型 视频 文件 等 多 媒体 文件 实施 生命 周期 管理 ， 从 而 显 
著 降 低 视频 档案 的 许可 成 本 及 录像 带 介质 成 本 


IBM Tivoli Storage Productivity 
Center (TPC) 套件 


智慧 存储 方法 


TPC 的 全 新 增强 特性 将 允许 公司 更 好 地 满足 大 数据 存储 需 
求 。 通 过 基于 Web 的 全 新 用 户 界 面 , TPC 能 够 从 根本 上 改变 
IT 经 理 查看 和 管理 存储 基础 架构 的 方式 。 此 外 ， 将 TPC 与 
提供 直观 报告 与 建 模 功能 的 IBM Cognos 相 集成 将 允许 客户 
轻松 创建 高 质量 的 特殊 报告 和 定制 报告 ， 以 便 做 出 更 加 明智 
的 决策 。TPC 采用 简单 包装 方式 ， 允 许 客 户 通过 单一 许可 开 
展 全 面 的 管理 、 发 现 、 配 置 、 性 能 保证 和 复制 工作 

进一步 改进 智慧 存储 方法 ， 将 IJBM Easy Tier 功能 扩展 到 基 
于 服务 器 的 直接 连接 SSD 领域 , 以 便 帮助 客户 协调 磁盘 系统 
与 服务 器 之 间 的 数据 迁移 活动 ， 如 图 6-17 所 示 。IBM Easy 
Tier 可 基于 策略 和 活动 将 数据 自动 转移 到 最 适合 的 存储 位 
置 ， 包括 多 层 磁盘 和 SSD 


Persistent 
Memory 
Storage 
Cache 


Flash SSD Tier 


存储 层 


图 6-17 IBM Easy Tier 可 支持 3 个 存储 层 


【 案例 解析 }， 在 本 案例 中 ，IBM 作为 领先 的 IT 服务 提供 商 ， 已 经 紧 紧 抓 住 了 发 展 
趋势 , 利用 自身 优势 、 资 源 及 解决 方案 深入 企业 业务 需求 , 帮助 企业 认 清 方向 , 通过 “ 智 
茵 存储 ”战略 解除 企业 数据 危机 并 实现 新 时 期 的 智慧 成 长 。 

与 IBM 的 主要 业务 相 比 ， 我 国 在 大 数据 存储 和 分 析 方 面 都 存在 缺陷 : 

> ”在 大 数据 存储 方面 ， 数 据 的 爆炸 式 增长 ， 数 据 来 源 的 极其 丰富 和 数据 类 型 的 多 种 

多 样 ， 使 数据 存储 量 更 庞大 ， 对 数据 展现 的 要 求 更 高 。 然 而 ， 目 前 我 国 传统 的 数 
据 库 ， 还 难以 存储 如 此 巨大 的 数据 量 。 

> “在 大 数据 的 分 析 处 理 方面 ， 由 于 针对 具体 的 应 用 类 型 ， 需 要 采用 不 同 的 处 理 方式 ， 

因此 必须 通过 建立 高 级 大 数据 的 分 析 模 型 ， 来 实现 快速 抽取 大 数据 的 核心 数据 ， 
高 效 分 析 这 些 核心 数据 并 从 中 发 现价 值 ， 而 这 些 数据 分 析 能 力 我 国 还 很 欠缺 。 

因此 , 笔者 建议 那些 经 过 激烈 市 场 洗礼 的 企业 在 全 新 IT 环境 下 更 要 抓 住 机 遇 , 做 出 

明智 决策 ， 大 数据 带 来 的 全 新 IT 挑战 将 成 为 企业 基础 架构 变革 的 动力 。 


6.5.3 【案例 】 谷歌 循环 利用 “数据 废气 ” 


拼写 检查 对 于 英语 写作 来 说 是 很 重要 的 一 个 纠 错 功能 ，Google Docs 的 文档 已 经 支 
持 拼写 检查 ， 而 且 现 在 使 用 Google Docs 的 表格 也 可 以 接受 拼写 检查 了 。 如 图 6-18 所 
示 ， 左 侧 是 新 的 系统 ， 右 侧 是 老 的 系统 ，Google 终于 意识 到 自己 的 “Gmail” 也 是 一 个 
正确 的 拼写 单词 了 ， 因 为 新 的 系统 结合 了 Google 的 在 线 拼 写 检查 功能 ， 而 老 系 统 只 是 
比照 词典 去 查 错 ， 字 典 里 显然 没有 Gmail 这 个 词 。 
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Ghal js a great mail sevice. 
Glam 


Gmal is a great mail sevice, 
Glam 
Gal Gal 


Goal Goal 
Gmail Add to dictionary 
Add to dictionary Undo Ey 


6-18 ”Google Docs 新 老 系统 对 比 


由 于 人 类 的 语言 极其 复杂 而 且 内 容 繁多 ， 有 非常 多 的 规则 需要 设计 ， 因 此 造成 同一 
句 话 可 以 表达 不 同意 思 ， 不 同 的 话 可 以 表达 相同 意思 ， 以 及 流行 语 更 新 很 快 等 问题 。 因 
此 ， 一 直 以 来 ， 专 业 的 拼写 检查 器 ( spell checker ) 很 难 达到 人 们 的 应 用 要 求 ， 比 较 起 
来 ， 搜 索引 擎 成 为 了 最 先进 的 拼写 检查 工具 。 

很 多 人 都 有 过 这 样 的 经 历 : 对 于 一 个 句子 、 单 词 、 成 语 甚至 古诗 不 确定 的 时 候 ， 就 
拿 Google 或 者 百度 搜 一 下 。 有 意思 的 是 , 不 管 Google 还 是 百度 都 不 是 作为 拼写 检查 器 
被 设计 出 来 的 ， 而 且 他 们 也 没有 专门 的 “拼写 检查 ”功能 。 之 所 以 这 个 牌 打 正 着 的 功能 
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居然 这 么 好 用 ， 是 因为 它 收 集 而 且 组 织 了 极其 大 量 的 信息 。 

在 大 数据 时 代 ， 搜 索引 擎 能 看 到 所 有 人 们 提出 的 问题 ， 所 以 如 果 你 在 拼写 中 或 者 用 
词 中 犯 了 一 个 错误 ， 它 能 通过 比 对 海量 数据 来 预测 出 你 的 这 个 错误 ， 从 而 导致 搜索 引擎 
成 为 了 目前 为 止 最 先进 的 拼写 检查 器 。 

这 些 用 户 之 间 交 互 的 语言 “ 碎 屑 ” 却 被 谷歌 当成 了 金粉 ， 收 集 在 一 起 就 能 锻造 成 一 
块 闪 亮 的 金 元 宝 。 一 个 用 来 描述 人 们 在 网 上 留 下 的 数字 轨迹 的 艺术 词汇 出 现 了 ， 这 就 是 
“数据 废气 ”"， 它 是 用 户 在 线 交互 的 副产品 ， 包 括 浏览 了 哪些 页 面 、 停 留 了 多 久 、 和 鼠标 
光标 停留 的 位 置 、 输 入 了 什么 信息 等 。 许 多 公司 因此 对 系统 进行 了 设计 ， 使 自己 能 够 得 
到 数据 废气 并 循环 利用 ， 以 改善 现 有 的 服务 或 开发 新 服务 。 

【 案例 解析 } “数据 废气 ”向 来 被 人 们 当成 是 一 种 负担 ， 累 积 在 一 起 将 会 带 来 极 大 
的 存储 压力 。 但 从 本 案例 继续 往 下 分 析 ， 可 以 看 到 “数据 废气 ”将 成 为 公司 的 巨大 竞争 
优势 ， 相 同 的 方法 和 原理 在 人 工 智 能 、 预 测 分 析 学 的 很 多 其 他 方面 都 有 着 应 用 ， 例 如 和 
脸 识别 技术 等 ， 这 些 应 用 的 基础 只 有 一 个 一 一 那 就 是 极其 大 量 的 数据 。 因 此 ， 把 Google 
当 拼 写 检 查 器 使 用 ， 这 个 有 趣 的 现象 值得 我 们 好 好 去 观察 和 思考 ， 也 许 海量 数据 真 的 会 
带 来 人 工 智能 的 新 时 代 。 


6.5.4 【案例 】 借 助 淘宝 大 数据 控制 风险 


做 服装 生意 的 90 后 美女 小 丽 最 近 开 了 一 家 淘宝 店 ， 但 等 了 两 个 多 月 才 等 来 第 一 单 
生意 。 小 丽 问 第 一 个 客人 为 什么 没 人 来 她 的 网 店 购物 ， 顾 客 告诉 她 ， 小 丽 的 网 店 页 面 上 
显示 没有 交 保证 金 ， 所 以 买 家 觉得 她 的 店 不 那么 “ 靠 谱 "。 

听 说 可 以 用 保费 代替 保证 金 ， 小 丽 马 上 买 了 这 款 保险 ,“ 只 花 30 块 钱 就 能 帮 有 我 提高 
信用 ， 为 什么 不 试 一 下 ? " 

2013 年 11 月 25 日 ， 众 安保 险 联合 阿里 巴巴 推出 “ 众 乐 宝 一 保证 金 计 划 ”( 以 下 简 
称 “ 众 乐 宝 " )， 其 将 利用 淘宝 全 量 大 数据 进行 风险 控制 。 

众 安保 险 的 定位 为 数据 公司 ， 掌 握 的 大 量 稀缺 性 数据 是 众 安保 险 的 价值 之 一 ， 公 司 
要 做 的 是 锤炼 团队 对 数据 的 分 析 、 运 用 能 力 。" 众 乐 宝 ”将 通过 严格 的 事前 风险 控制 ， 
有 效 识别 风险 客户 ， 并 根据 卖家 的 信用 表现 给 予 匹配 其 信用 的 承保 额度 ， 通 过 实时 的 控 
制 监 控 跟 踪 卖 家 的 风险 ， 且 在 事后 针对 恶意 风险 客户 给 予 信息 披露 。 

“ 众 乐 宝 ” 改 变 了 淘宝 卖家 交 “ 保 证 金 ” 的 惯例 。 此 前 ， 在 淘宝 开店 ， 卖 家 需 缴纳 
1000 元 ~ 10000 元 不 等 的 消费 者 保障 基金 , 卖家 并 不 能 动用 这 笔 保障 基金 。 不 过 “ 众 乐 
宝 ” 推 出 后 将 改变 以 往 卖 家 交 “ 保 证 金 ” 的 方式 ,卖家 可 以 选择 不 交 1000 元 的 保障 金 ， 
改 为 投保 一 年 “ 众 乐 宝 "， 一 年 费 率 为 3%， 如 图 6-19 所 示 。 一 旦 卖家 发 生 违 约 行为 ， 
保险 公司 先行 垫付 赔偿 买 家 ， 然 后 向 卖家 追偿 。 
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家 购 袍 信心 更 强 


| 理赔 规则 
。 控 曲 @@ 挫 保 时 选 择 的 保 际 葡 度 的 3% 一 次 性 收取 ， 当 放 生 汇 仅 纠纷 需要 保证 本 赔付 时 ， 保 险 公司 先 
保费 行 垫付 周 款 。 
。 您 需要 至 少 在 15 天 内 还 款 。 


图 6-19 众 乐 宝 一 保证 金 计划 


“ 众 乐 宝 ”正式 上 线 运营 后 ， 淘 宝 卖 家 只 要 缴纳 18 元 就 可 以 获得 保障 额度 为 1000 
元 的 半年 期 “ 众 乐 宝 ” 保险。 这样 的 理赔 形式 ， 对 于 卖家 来 说 ， 提 高 了 资金 的 使 用 效率 ; 
对 于 买 家 来 说 ， 保 险 的 先行 赔付 可 以 缩短 维权 过 程 ， 这 能 更 好 地 提升 买 家 的 购物 体验 。 

很 多 卖家 都 知道 ， 在 淘宝 的 搜索 排名 中 ， 有 没有 缴纳 保证 金 也 是 影响 因素 之 一 。 而 
对 买 家 而 言 ， 这 个 店铺 有 没有 消 保 标志 ， 同 样 会 影响 他 们 的 购买 行为 。 淘 宝 网 相关 数字 
显示 ， 至 少 有 500 万 左右 的 淘宝 卖家 没有 缴纳 保证 金 ， 而 “ 众 乐 宝 ” 的 首选 目标 客户 无 
疑 是 这 些 没 有 参加 消 保 的 卖家 。 因 为 对 于 他 们 而 言 ， 一 笔 极 低 的 保费 就 可 以 获得 消 保 标 
志 。 同 时 ， 众 安保 险 也 极力 争取 已 经 缴纳 保证 金 的 卖家 ， 对 这 些 卖家 而 言 ， 用 少量 的 保 
费 就 可 以 盘活 其 被 冻结 的 保证 金 。 

在 此 过 程 中 ,“ 众 乐 宝 ”的 风险 主要 来 自 两 部 分 ， 即 卖家 本 身 的 信用 风险 和 卖家 本 
身 的 经 营 风险 。 众 安保 险 会 在 事前 对 卖家 的 信用 以 及 经 营 情况 等 进行 信用 评估 ， 并 采集 
了 淘宝 的 全 量 数据 来 对 卖家 做 信用 评估 。 

【 案例 解析 】， 在 具体 操作 中 ， 目 前 线 下 数据 较为 碎片 化 ， 线 上 数据 则 更 为 透明 ， 
可 逐渐 完善 信用 平台 。 在 本 案例 中 ， 众 安保 险 不 仅 可 以 根据 卖家 的 交易 记录 ， 还 可 根据 
买 家 对 卖家 的 评价 来 测算 卖家 信用 ， 大 数据 将 全 程 应 用 于 “ 众 乐 宝 ” 风 险 控 制 的 各 个 
阶段 。 
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学 前 提示 

移动 互联 网 发 展 起 来 后 ,数据 爆发 性 增长 ,运营 商 怎样 利用 好 手中 的 大 数据 ? 如 何 
进一步 优化 、 升 级 网 络 ， 以 应 对 “大 数据 ”时 代用 户 的 流量 需求 呢 ? 大 数据 时 代 运营 商 
面临 的 是 机 遇 还 是 挑战 ? 本 章 将 结合 传统 通信 行业 ， 介 绍 大 数据 的 解决 方案 和 应 用 


案例 。 
要 点 展示 
< ”信息 通信 平台 大 数据 解决 方案 
< ”信息 通信 平台 大 数据 应 用 案例 


丽 器 旦 哆 潭 于 . . 唤 距 才 


| 渤 央 i 而 .0 的 


7.1 信息 通信 平台 大 数 棍 解决 方案 


车 联网 、 物 联网 、 云 计算 、 移 动 互联 网 等 以 及 遍布 全 球 的 各 种 各 样 的 传感器 ， 无 一 
不 是 数据 来 源 或 者 承载 的 方式 。 大 数据 的 累积 效应 正 给 整个 IT 业 带 来 变革 。 特别 是 云 概 
念 和 3G 的 深入 发 展 , 各 大 运营 商 面 临 着 越 来 越 大 的 数据 压力 , 同时 IDC ( Internet Data 
Center， 即 互联 网 数据 中 心 ) 扩容 ， 偏 向 以 存储 为 主 的 云 服务 。 

对 于 运营 商 来 说 ， 这 个 “大 数据 ”主要 是 大 量 的 用 户 行为 数据 。 随 着 智能 手机 的 普 
及 ， 运 营 商 将 获得 更 加 完备 的 用 户 行为 数据 ， 而 能 否 挖掘 出 这 些 数据 的 价值 将 决定 运营 
商 能 否 把 握 住 大 数据 带 来 的 机 遇 。 


7.1.1 运营 商 在 大 数据 时 代 的 认识 转变 


移动 互联 网 时 代 的 到 来 带动 了 通信 业 新 的 变化 , 以 腾讯 、 阿 里 巴巴 、 百 度 、 奇 虎 360 
等 为 代表 的 互联 网 公司 目前 已 经 形成 了 与 传统 电信 运营 商 价值 链 重新 划分 的 格局 ， 使 得 
运营 商 的 角色 正在 不 知 不 觉 中 发 生 着 变化 。 

不 管用 户 换 什么 OTT 平台 和 终端 , 数据 总 归 会 流 经 管道 和 运营 商 。 所 以 有 人 问 , 淘 
宝 也 有 大 数据 , 腾讯 也 有 大 数据 , 运营 商 的 大 数据 和 他 们 有 何 区 别 呢 ? 其 实 , 区 别 在 于 ， 
淘宝 拿 不 到 腾讯 的 大 数据 ， 腾 讯 拿 不 到 淘宝 的 大 数据 ， 但 运营 商 可 以 同时 拿 到 淘宝 和 腾 
讯 的 数据 ， 只 要 有 这 个 必要 。 

专家 提醒 

OTT 是 Over The Top 的 缩写 ， 是 通信 行业 非常 流行 的 一 个 词汇 ， 这 个 词汇 来 源 于 篮球 
等 体育 运动 ， 是 “过 顶 传 球 ” 之 意 ， 指 的 是 球 类 运动 员 在 他 们 头 上 来 回 传 球 而 使 其 到 达 目 的 
地 。OTT 在 商业 中 的 意思 是 ， 互 联网 公司 越过 运营 商 ， 发 展 基于 开放 互联 网 的 各 种 视频 及 
数据 服务 业务 ,强调 服务 与 物理 网 络 的 无 关 性 。 互联 网 企业 利用 运营 商 的 宽带 网 络 发 展 自己 
的 业务 ， 如 国外 的 谷歌 、 革 果 、Skype、Netflix， 以 及 国内 的 QQ、 阿 里 旺旺 等 。 不 少 OTT 
服务 商 直 接 面向 用 户 提供 服务 和 计 费 ， 使 运营 商 沦 为 单纯 的 “传输 管道 "， 根 本 无 法 触及 管 
道中 传输 的 巨大 价值 。 

当前 ， 通 信 业 务 的 竞争 日 趋 激烈 ， 保 证 网 络 质量 无 疑 是 网 络 运营 商 竞争 取胜 的 关键 
所 在 。 为 提高 网 络 服务 质量 ， 网 络 运营 商 必 须 建立 高 效 运作 的 维护 体系 ， 推 进 移动 网 络 
基础 运营 的 精确 管理 , 并 以 信息 化 为 支撑 , 通过 先进 的 维护 手段 不 断 提 高 维护 管理 效率 ， 
为 整个 运营 网 络 提供 可 靠 的 业务 保障 。 那 么 ， 大 数据 的 到 来 对 运营 商 有 什么 启示 呢 ? 笔 
者 认为 至 少 有 以 下 两 点 : 

( 1 ) 业务 类 型 的 转变 。 传 统 运营 商 所 提供 的 服务 类 型 已 经 从 单一 的 话音 结合 少量 


的 数据 通信 ， 向 多 媒体 、IPTV 等 多 业务 又 加 模式 演变 。 

( 2 ) 业务 价值 链 的 改变 。 在 大 数据 时 代 ， 运 营 商 不 得 不 面 对 为 数 众多 的 并 且 在 逐 
步 壮 大 的 互联 网 服务 提供 商 和 应 用 提供 商 ， 运 营 商 想 自己 直接 经 营 这 些 业务 显然 不 太 现 
实 。 因 此 ， 如 何 处 理 与 互联 网 公司 的 关系 ? 公司 化 运作 、 新 的 IT 技术 的 利用 是 否 是 其 转 
型 的 救命 稻草 ? 云 、 管 、 端 三 线 布局 能 否 解决 管道 化 的 忧虑 ? 这 是 大 数据 时 代 摆 在 我 国 
运营 商 面 前 的 难题 。 


专家 提醒 
在 需求 不 断 变化 增长 的 发 展 趋势 下 ， 很 多 运营 商 在 尝试 布局 “ 云 管 端 ”架构 ， 如 图 7-1 
所 示 。 
> 云 : 云 平 台 将 成 为 未 来 信息 服务 架构 的 核心 。 
> 管 : 超 宽带 智能 网 络 是 实现 该 新 架构 的 基础 和 前 提 ， 同 时 是 实现 “ 云 - 端 ” 互 动 的 
桥梁 。 
> 端 : 融合 终端 (Terminal， 集 中 式 主机 系统 ) 的 智能 化 ， 将 大 规模 地 在 各 行业 得 到 
应 用 。 
生活 在 云 中 无 所 不 在 的 宽带 接 入 
工作 在 云 中 智能 设备 


图 7-1 不 断 变化 增长 的 通信 市 场 需要 新 的 “ 云 - 管 - 端 ” 模 
7.1.2 运营 商 在 大 数据 时 代 的 模式 转型 


移动 互联 网 发 展 起 来 之 后 ， 运 营 商 在 近 两 三 年 开始 关注 大 数据 。 大 数据 不 是 新 的 概 
念 ， 在 移动 互联 网 发 展 起 来 ， 数 据 增 长 速度 加 快 ， 整 个 产业 压力 突出 ， 传 统 数据 库 技术 
已 无 法 满足 运营 商 对 大 数据 充分 利用 的 需求 的 背景 下 , 大 数据 成 为 近年 来 的 热点 。 但 是 ， 
对 运营 商 来 说 ， 数 据 爆发 性 增长 后 ， 并 没有 为 其 带 来 可 观 的 收入 。 

究 其 原因 ， 主 要 有 以 下 两 点 : 

( 1 ) 运营 模式 受 限 。 由 于 大 数据 产业 具有 强烈 的 互联 网 特征 ， 因 此 运营 商 现 有 的 
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运营 模式 很 难 帮助 实现 大 数据 产业 的 迅速 发 展 。 

( 2 ) 组织 结构 过 时 。 对 于 大 数据 产业 ， 运 营 商 传统 的 金字 塔 式 的 组 织 结构 已 经 过 
时 ， 传 统 架构 的 信息 系统 及 组 织 架 构 已 无 法 应 对 海量 数据 和 创新 型 应 用 ， 那 种 由 上 而 下 
的 运营 模式 无 法 更 接近 用 户 的 需求 ， 显 然 已 经 阻碍 运营 商 自 身 大 数据 产业 的 纵深 发 展 。 

Ne att 但 是 由 于 运营 商 有 经 营 大 数据 的 先天 优 
势 ， 且 又 有 在 互联 网 时 代 沦 为 “数据 管道 ”的 压力 ， 还 有 大 数据 时 代 信 息 价值 的 高 昂 ， 
i dated dei 

总 的 来 说 ， 运 营 商 运用 大 数据 主要 有 4 种 模式 ， 如 表 7-1 所 示 。 


表 7-1 运营 商 运用 大 数据 的 模式 


运用 层面 具体 操作 
运营 商 可 以 利用 大 数据 对 自身 的 产品 进行 服务 , 通过 大 数据 分 析 用 户 行为 , 改 
市 场 进 产 品 设计 ， 并 通过 用 户 偏好 分 析 ， 及 时 、 准 确 地 进行 业务 推荐 ， 强 化 客户 关 
怀 , 这 样 就 可 以 不 断 改 善 用 户 体验 , 增加 用 户 的 信息 消费 以 及 对 运营 商 的 粘度 
网 络 可 以 通过 大 数据 分 析 网 络 的 流量 、 流 向 变化 趋势 ， 及 时 调整 资源 配置 ， 同 时 还 
可 以 分 析 网 络 日 志 ， 进 行 全 网 络 优化 ， 不 断 提升 网 络 质量 和 网 络 利用 率 
企业 经 营 可 以 通过 业务 、 资 源 、 财 务 等 各 类 数据 的 综合 分 析 ， 快 速 准确 地 确定 公司 经 营 
管理 和 市 场 竞 争 策略 
业务 创新 可 以 在 确保 用 户 隐 私 不 被 侵犯 的 前 提 下 ， 对 数据 进行 深度 加 工 ， 对 外 提供 信息 


服务 ， 为 企业 创造 新 的 价值 


只 要 做 到 以 上 4 种 模式 的 转变 ， 运 营 商 即 可 借助 大 数据 来 实现 从 网 络 服务 提供 商 向 
信息 服务 提供 商 的 转变 。 笔 者 认为 ， 运 营 商 应 该 跳出 互联 网 看 互联 网 ， 将 大 数据 作为 重 
点 业务 发 展 领域 ， 毕 竟 运 营 商 拥有 的 “数据 矿产 ”资源 是 任何 其 他 企业 所 不 具备 的 ， 运 
营 商 应 该 基于 大 数据 的 基础 发 展 延伸 业务 。 


专家 提醒 
在 大 数据 时 代 , 运营 商 必须 根据 市 场 需求 ,全面 转向 以 客户 和 消费 者 为 中 心 的 运营 体系 ， 
重新 梳理 企业 的 经 营 模式 和 组 织 架 构 ， 这 就 是 模式 的 创新 。 


7.1.3 运营 商 在 大 数据 时 代 的 机 遇 前 景 


运营 商 手 中 的 “大 数据 ”如 同一 座 丰 富 的 金 矿 ， 然 而 对 其 价值 的 挖掘 却 由 于 体 量 太 
大 的 缘故 迟 迟 无 法 有 效 推广 ， 如 图 7-2 所 示 。 

1. 运营 商 为 何 难以 下 手 

当 谈 到 大 数据 话题 时 ， 通 信 运 营 商 们 都 不 愿 公开 谈论 他 们 的 进展 。 这 表明 运营 商 或 
者 是 在 部 署 独特 的 亦 或 是 商业 敏感 性 的 解决 方案 ， 又 或 者 他 们 还 未 下 定投 身 大 数据 的 决 


心 。 笔 者 认为 ， 在 营运 商 的 大 数据 道路 面前 ， 至 少 有 以 下 两 道 坎 : 


图 7-2 运营 商 如 何 挖掘 “大 数据 金 矿 ” 


( 1 ) 市 场 没有 定型 。 由 于 国内 还 没有 成 熟 的 市 场 ， 所 以 国内 运营 商 在 大 数据 的 商 
业 控 掘 上 还 没有 看 到 应 用 的 出 现 。 通 常 大 家 能 看 到 的 一 些 与 位 置 有 关 的 服务 , 例如 餐饮 、 
活动 查询 等 ， 其 实 与 运营 商 的 关系 并 不 大 ， 一 般 是 通过 GPS 定位 来 实现 的 。 

( 2 ) 政策 监管 是 空白 。 运 营 商 所 掌握 的 用 户 信息 是 十 分 精确 的 数据 ， 不 仅仅 是 用 
户 的 身份 信息 、 手 机 号 码 等 ， 甚 至 连用 户 的 所 处 位 置 、 通 话 状态 等 都 能 够 获取 。 在 通信 
行业 里 ， 通 话 记 录 等 属于 涉 密 信息 ， 在 这 个 信息 的 获取 上 是 没有 灰色 地 带 的 ， 如 果 没有 
政策 导向 ， 一 味 只 考虑 利用 用 户 信息 挖掘 商业 价值 ， 就 会 面临 信任 危机 。 

2， 从 云 计 算 来 打 “ 首 战 ” 

运营 商 在 云 计 算 和 大 数据 应 用 的 发 展 上 ， 相 比较 互联 网 企业 有 一 定 的 优势 ， 利 用 好 
了 ， 找 准 了 发 力 点 和 突破 点 ， 在 移动 互联 网 产业 的 发 展 中 可 占据 一 席 之 地 。 运 营 商 发 展 
云 计算 的 先天 优势 是 其 在 电信 时 代 所 积累 的 遍布 全 球 的 IDC ( 数据 中 心 ) 和 庞大 而 详细 
的 用 户 数 据 ( 包括 身份 数据 和 行为 数据 ), 而 且 都 是 电信 级 的 质量 和 品质 。 运营 商 的 1DC 
不 仅 可 以 满足 自身 业务 的 需求 ， 也 可 以 为 互联 网 企业 提供 相关 租赁 、 托 管 等 服务 。 

运营 商 IDC 众多 ， 对 带宽 绝对 控制 ， 有 国有 资产 的 公信 力 ， 无论 发 展 公 有 云 、 私 有 
云 还 是 专属 云 ， 均 具备 优势 。 在 云 计算 的 发 展 中 ， 平 台 才 是 王道 , “得 平台 者 ， 得 云 计 
算 半 壁 "。 

运营 商 应 与 开发 者 合作 共 赢 ， 从 以 自己 单独 运营 为 主 逐 渐 转 向 专注 提供 开放 的 、 低 
门槛 的 开发 平台 和 环境 ， 汇 聚 广 大 开发 者 共同 开发 。 当 然 ， 运 营 商 发 展 云 计 算 ， 不 能 仅 
停留 在 云 计算 本 身上 ， 也 不 能 仅 停 留 在 云 计算 基础 设施 建设 上 ， 而 是 要 专注 于 云 计算 应 
用 ， 使 其 落地 开花 。 

因此 ， 运 营 商 可 以 利用 自身 优势 ， 有 针对 性 地 搜集 各 种 不 同类 型 的 数据 ， 打 好 时 间 
差 ， 先 发 制 人 ， 可 以 获得 先 发 优 势 。 否 则 ， 随 着 人 们 的 行为 越 来 越 多 地 发 生 在 互联 网 公 
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司 端 ， 互 联网 公司 搜集 到 的 数据 越 来 越 全 面 ， 运 营 商 的 优势 将 不 复 存在 。 另 外 ， 运 营 
学 会 降低 成 本 ， 保 证 合理 的 质量 ， 并 进行 市 场 普遍 定价 ， we 
i 
世家 提醒 
运营 商 的 自身 优势 主要 有 以 下 几 点 : 
六 ”可 以 看 到 用 户 的 年 龄 、 品 牌 、 资 费 、 入 网 渠道 ， 还 能 够 看 到 他 们 的 上 网 时 间 、 上 
网 地 点 、 浏 览 内容 偏 好 、 各 种 应 用 的 使 用 时 间 等 。 
> 能 够 知道 用 户 用 了 什么 样 的 终端 ， 包括 IMEI、MAC、 终 端 品牌 、 终 端 类 型 、 终 3 
预 装 了 哪些 应 用 、 终 端的 操作 系统 、 终 端的 尺寸 等 。 
> Web 浏览 记录 、 传 感 器 信号 、GPS 跟踪 和 社交 网 络 信 息 等 数据 也 都 会 被 运营 商 
掌握 。 
从 这 些 数据 中 分 析 用 户 的 行为 习惯 和 消费 喜好 ， 正 是 大 数据 的 精髓 所 在 。 


3， 逐步 进入 大 数据 领域 

过 去 ， 运 营 商 已 经 积累 了 大 量 的 优质 数据 ， 但 其 价值 一 直 未 被 发 现 。 如 今 ， 大 数据 
时 代 的 到 来 ， 使 这 些 数 据 反 倒 可 以 成 为 运营 商 “ 咸 鱼 翻身 ”的 利器 。 目 前 运营 商 的 优势 
只 是 数据 大 ， 需 要 将 数据 大 变 成 大 数据 ， 对 数据 进行 充分 的 挖掘 和 分 析 ， 并 从 中 生发 出 
新 的 业务 形态 和 价值 来 。 

( 1 ) 扩大 现 有 的 数据 业务 。 运 营 商 要 接受 大 数据 带 来 的 变革 性 影响 ， 顺 应 数据 业 
务 主 营 化 的 大 趋势 ， 将 数据 业务 及 时 转换 成 自己 的 主 营 业务 。 电 信 业 原 有 的 主 营业 务 是 
语音 业务 ， 数 据 业务 只 是 辅助 性 业务 。 但 在 移动 互联 网 中 ， 数 据 业务 上 升 为 主 营 业务 ， 
有 的 甚至 可 以 占 到 76% 以 上 ， 而 语音 业务 成 为 副业 。 

( 2 ) 初步 构建 大 数据 系统 。 大 数据 时 代 ，i pe on 
技术 、 海 量 数 据 挖掘 技术 和 大 规模 分 布 式 技术 。 围 绕 新 核心 系统 BDS 这 个 中 心 ， 形 
Re ws 
其 1DC 有 天 然 优 势 ， 不 用 求人 。 这 一 部 分 ， 从 互联 网 角度 看 ， 也 属于 运营 商 最 优质 的 资 
产 ， 可 以 成 为 移动 互联 网 数据 核心 业务 的 重要 组 成 部 分 ， 甚 至 是 重心 所 在 。 

( 3 ) 认 清 大 数据 发 展 方向 。 运 营 商 将 来 努力 方向 是 完善 面向 客户 的 支撑 系统 ， 全 
面 提升 面向 客户 的 支撑 能 力 。 不 应 局 限于 传统 IDC 思路 ， 只 把 重点 放 在 服务 器 托管 、 出 
租 设备 等 方式 上 ， 还 需要 深入 到 业务 内 部 ， 思 路 向 数据 方向 转变 ， 提 高 服务 的 能 力 。 

(4 ) 应 用 才 是 真正 的 财源 。 移 动 互联 前 沿 的 竞争 在 于 除了 提供 IT 服务 之 外 ， 还 要 
与 应 用 结合 起 来 ， 提 供 基于 应 用 的 云 计 算 服务 。 例 如 数据 采集 之 后 ， 要 把 数据 业务 展开 
成 几 个 具体 的 产业 ;再 如 数据 增值 前 ， 可 以 增加 咨询 加 工 服务 ， 再 往 下 是 平台 业务 、 很 
多 分 散 的 应 用 ， 这 了 恐怕 不 是 运营 商 一 家 能 够 做 得 到 的 ， 可 通过 合作 做 大 产业 。 


时 


专家 提醒 
应 用 在 面向 对 象 上 ， 通常 可 分 为 个 人 用 户 应 用 (面向 个 人 消费 者 ) 与 企业 级 应 用 (面向 
企业 )， 在 移动 端 系统 分 类 上 主要 包括 iOS App ( 如 同步 推 等 ) 和 Android Apk (如 AirDroid、 
百度 应 用 等 )。 


7.1.4 运营 商 在 大 数据 时 代 的 应 对 方案 


. . 施 噬 才 
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运营 商 拥有 丰富 的 大 数据 资源 ， 包 括 数据 资源 、 基 础 资源 和 平台 资源 ， 这 些 资源 优 
势 是 其 他 企业 无 法 比拟 的 。 不 过 ， 这 些 数据 只 有 经 过 长 期 的 运营 、 使 用 和 剖析 ， 才 能 够 
真正 发 挥 价值 ， 如 图 7-3 所 示 。 
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7-3 ”运营 商 大 数据 解决 方案 


( 1 ) 打造 实时 营销 解决 方案 。 运 营 商 应 整合 现 有 数据 建立 数据 集 市 ， 利 用 实时 处 
理 大 数据 的 能 力 ， 打 造 基于 数据 的 实时 营销 解决 方案 ， 提 升 企业 销售 服务 能 力 。 大 数据 
处 理 分 析 平 台 的 优势 在 于 对 海量 数据 处 理 的 实时 性 ， 技 术 优势 可 以 有 效 地 保障 实时 营销 
解决 方案 的 实施 。 例 如 , “基于 位 置 的 服务 ”是 根据 用 户 位 置 轨迹 信息 推送 自 有 业务 或 
者 合作 商家 的 产品 信息 , 如 对 接近 某 大 型 商场 的 用 户 推送 商店 优惠 信息 , 吸引 客户 消费 。 

( 2 ) 成 为 数据 信息 的 融合 者 。 运 营 商 可 以 利用 自 有 的 品牌 优势 打造 权威 指数 类 产 
品 ， 为 客户 的 决策 提供 参考 依据 ， 可 以 提供 更 加 全 面 、 详 尽 、 客 观 的 产品 ， 对 于 分 析 中 
欠缺 的 数据 可 以 同 其 他 行业 进行 合作 共同 挖掘 数据 中 隐 含 的 价值 。 


( 3 ) 提升 其 他 行业 的 数据 价值 。 电 信 运 营 商 可 为 智慧 医疗 、 智 能 交通 、 智 慧 物 流 、 
智能 制造 等 领域 提供 解决 方案 ， 提 升 数 据 价值 。 
专家 提醒 
例如 ， 交 通 管理 行业 在 大 数据 时 代 ， 需要 解决 基于 大 数据 及 时 查询 、 及 时 分 析 等 业务 需 
求 。 电 信 运 营 商 可 以 利用 如 “全 球 眼 ” 等 业务 和 云 存 储 方面 的 技术 积累 ， 提 供 海量 交通 数据 
的 存储 、 分 析 、 应 用 ， 同 时 利用 智能 管道 进行 交通 信息 的 及 时 推送 ， 这 样 可 以 更 加 有 效 地 保 
障 交通 管理 行业 的 及 时 性 要 求 。 
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7.2 ”信息 通信 平台 大 数据 应 用 案 倒 


大 数据 并 非 运 营 商 独 家 的 概念 ， 它 已 成 为 整个 互联 网 行业 共同 关注 的 领域 。 互 联网 
服务 对 传统 通信 运营 商业 务 构成 的 冲击 ， 反 而 可 以 加 速 运营 商 的 转型 ， 并 催生 新 的 机 遇 
和 市 场 空 间 。 大 数据 恰恰 就 是 在 这 种 产业 变化 的 情况 下 催生 出 的 新 业务 ， 对 于 运营 商 来 
说 ， 在 大 数据 领域 可 拥有 比 传统 基础 电信 业务 更 大 的 市 场 空间 。 本 节 主 要 介绍 信息 通信 
平台 大 数据 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


7.2.1 【案例 】 西 班 牙 电 话 公司 的 数据 再 利用 


2012 年 10 月 9 日 ,西班牙 电信 成 立 了 名 为 "动态 洞察 " 的 大 数据 业务 部 门 Telefonica 
Dynamic Insights, 希望 借 此 把 握 大 数据 时 代 商 机 , 创造 
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西班牙 电信 此 次 成 立 的 大 数据 业务 部 门 隶属 于 该 公 
司 此 前 成 立 的 数字 业务 部 门 Telefonica Digital。 大 数据 
部 门面 向 全 球 运营 ， 主 要 目标 客户 为 企业 和 公共 事业 部 
门 ， 其 将 为 客户 提供 信息 和 分 析 打 包 业 务 ， 帮 助 客户 把 
握 重 大 的 变化 趋势 。 

大 数据 业务 部 推出 的 首 款 产 品 智慧 足迹 ( Smart 
Steps， 如 图 7-4 所 示 ) 就 是 将 匿名 的 移动 网 络 数据 提供 
给 零售 企业 等 客户 ， 让 其 了 解 在 某 个 时 段 、 某 个 地 点 的 
人 流量 ， 据 此 决策 新 店 的 选 址 、 进 行 时 段 促 销 等 。 

其 实 ， 西 班 牙 电信 在 数据 能 力 商业 化 领域 已 经 进行 
了 不 少 探索 。 例 如 ，2011 年 1 月 ， 西 班 牙 电信 旗下 英国 图 7-4 _ Smart Steps 界面 
O2 运营 商 就 在 英国 推出 了 免费 WiFi 服务 ， 尝 试 将 收集 
来 的 用 户 数据 用 在 媒体 广告 和 营销 服务 方面 。 免 费 的 WiFi 服务 意味 着 更 多 的 人 会 使 用 


这 个 服务 ， 进 而 O2 运营 商 就 会 收集 到 更 多 的 用 户 数据 ， 而 广告 商 就 能 够 利用 这 些 数据 
进行 更 精准 的 广告 投递 。 

2012 年 ， 西 班 牙 电信 公司 与 GFK 市 场 研究 公司 联手 ， 成 立新 部 门 一 一 西班牙 电信 
数字 洞察 ( Telefonica Digital Insights )， 以 此 获得 德国 、 英 国 和 巴西 等 市 场 的 相关 数据 。 

【 案例 解析 ])， 大 数据 是 数字 经 济 建 模 的 关键 之 一 ， 是 转换 企业 和 社会 每 一 部 分 又 
智能 又 可 靠 的 方式 ， 有 促进 经 济 增长 、 改 善人 们 生活 水 平 的 潜力 。 在 本 案例 中 ， 西 班 牙 
电信 通过 APP 应 用 对 手机 用 户 的 一 般 活动 进行 定位 ， 这 不 但 有 助 于 零售 商 作 出 战略 决 
策 ， 还 可 以 帮助 市 政府 制定 停车 场 计 划 、 管 理 公 共事 务 。 

笔者 认为 ， 大 数据 是 对 技术 的 综合 应 用 ， 运 营 商 要 有 开放 、 融 合 、 服 务 和 创新 的 心 
态 ， 在 大 数据 领域 创造 另 一 片 天 地 。 例 如 ， 一 个 大 数据 的 应 用 通过 收集 数据 ， 对 大 量 图 
片 进行 分 析 ， 最 终 形成 一 个 场景 图 。 这 就 是 对 数据 分 析 、 统 计 技 术 、 图 片 处 理 技术 和 人 
工 智能 合成 技术 的 综合 运用 。 


7.2.2 【案例 】 德 国电 信 的 大 数据 营销 新 策略 


德国 电信 T-Systems 是 SAP 第 一 批 合作 商 , 现 已 成 为 SAP 认证 的 SAPHANA 企业 
云 运 维 服务 供应 商 。T-Systems 作为 德国 电信 子 公司 ， 通 过 对 特定 的 SAPHANA 平台 基 
础 设施 的 建设 ， 已 可 提供 基于 云 计算 的 端 到 端 大 数据 服务 。 

T-Systems 的 信息 通信 技术 部 主任 Olaf Heyden 说 ,“ 大 公司 对 云 计 算 越 来 越 感 兴 
趣 ， 高 效 数 据 中 心 的 需求 在 几 年 之 后 会 越 来 越 明 显 。 

此 前 ，T-Systems 公司 与 英特尔 公司 在 慕尼黑 共 建 了 试 运行 数据 中 心 。 两 家 公司 对 
运行 服务 环境 的 可 持续 性 和 高 效 性 进行 了 研究 。 正 是 基于 这 份 研究 结果 ，T-Systems 公 
司 决定 新 建 云 计 算数 据 中 心 。 

德国 电信 T-Systems 凭借 在 SAPHANA 领域 的 专业 知识 ,为 客户 提供 大 数据 环境 下 
高 性 能 商业 智能 应 用 程序 。 企 业 通 过 该 程序 进行 实时 海量 数据 分 析 ， 并 将 结果 作为 “ 智 
圳 ”以 供 管理 层 参 考 。 通 过 使 用 SAPHANA 企业 云 ， 企 业 无 需 购买 德国 电信 T-Systems 
相关 “ 端 到 端 ” 大 数据 解决 方案 和 技术 设施 ， 只 需 使 用 建立 在 多 样 化 云 平台 ( DCP ) 上 
的 应 用 程序 便 可 轻松 享受 大 数据 的 核心 价值 。 

SAPHANA 平台 除了 可 以 快速 处 理 大 数据 外 ， 还 支持 全 新 的 一 体 化 分 析 方 式 ， 分 析 
结果 能 够 直接 作为 业务 决策 的 参考 甚至 产生 新 业务 ， 使 得 企业 能 更 容易 地 满足 阶段 性 
需求 。 


专家 提醒 
SAP 提供 一 系列 前 所 未 有 的 新 型 企业 应 用 , 其 中 结合 了 大 量 交易 与 实时 分 析 能 力 , 能 够 
显著 优化 现 有 的 计划 流程 、 预 测 流程 、 定 价 优化 流程 等 数据 密集 型 流程 HANA 是 一 个 软 硬 
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件 结合 体 ， 可 提供 高 性 能 的 数据 查询 功能 ， 用 户 可 以 直接 对 大 量 实时 业务 数据 进行 查询 和 分 
析 ， 而 不 需要 对 业务 数据 进行 建 模 、 聚 合 等 。 

【 案例 解析 】]，SAPHANA 平台 提高 了 对 结构 性 大 数据 分 析 的 能 力 。 在 数据 中 心 、 
网 络 、 应 用 程序 和 流程 集成 的 完美 配合 下 ，SAPHANA 能 够 发 挥 全 部 潜能 。 在 本 案例 中 ， 
德国 电信 T-Systems 对 于 SAPHANA 的 性 能 进行 了 精准 的 投入 ,同时 也 已 完成 SAPHANA 
与 多 种 基于 云 的 SAP 解决 方案 的 一 体 化 , 这 意味 着 相关 的 业务 流程 可 以 获得 全 面 的 改进 。 

聪明 的 决策 来 自 于 分 析 新 的 数据 源 ， 并 用 其 增强 现 有 的 利用 操作 型 系统 和 数据 仓库 
中 的 结构 化 数据 建立 的 分 析 和 预测 模型 。 大 数据 产品 强调 对 传感器 数据 、 网 页 日 志 数 据 、 
SNS 数据 、 文 档 等 多 种 非 结构 化 数据 的 分 析 。 运 营 商 可 以 将 自己 的 业务 技能 和 技术 技能 
组 织 在 一 起 ， 深 入 分 析 大 数据 ， 找 到 改善 当前 业务 分 析 和 预测 分 析 的 模型 ， 并 发 现 新 的 
商业 机 会 。 


7.2.3 【案例 】Verizon 利用 大 数据 精准 营销 


威 瑞 森 电信 ( Verizon ) 是 美国 最 大 的 无 线 通信 提供 商 和 本 地 电话 交换 公司 ， 该 公司 
也 是 全 世界 最 大 的 黄页 印刷 公司 和 在 线 黄页 信息 提供 商 ， 在 美国 、 欧 洲 、 亚 洲 、 太 平 洋 
等 全 球 45 个 国家 经 营 电信 及 无 线 业务 。 

2012 年 10 月 初 ，Verizon 成 立 了 精准 营销 部 门 Precision Marketing Division。 根 
据 部 门 副 总 裁 Colson Hillier 的 介绍 ， 该 部 门 提供 以 下 3 方面 的 服务 : 

( 1 ) 精准 营销 洞察 ( Precision Market Insights )。 提 供 商业 数据 分 析 服 务 。 该 服务 
已 经 开始 向 第 三 方 售卖 Verizon 手 上 的 用 户 数据 ， 对 商场 、 体 育 馆 、 广 告 牌 业主 等 出 售 
特定 场所 手机 用 户 的 活动 和 背景 信息 。 


专家 提醒 

Precision Market Insights 的 具体 做 法 如 下 : 

Verizon 收集 包括 位 置 和 Web 浏览 信息 在 内 的 用 户 数据 ， 并 将 这 些 信息 发 给 数据 库 ， 与 
从 第 三 方 拿 到 的 人 口 统计 数据 ( 年龄、 性 别 等 ) 结合 起 来 ，Precision Market Insights 服务 将 
数据 进行 聚 类 ， 然 后 卖 给 体育 场馆 、 商 场 等 需要 做 营销 的 公司 。 这 些 公司 拿 到 数据 后 进行 剖 
析 然 后 进行 定向 营销 。 

例如 ，NBA 球 队 菲 尼克 斯 太阳 队 就 是 这 项 服务 的 客户 之 一 。 太 阳 队 用 它 来 找 出 观看 比 
赛 的 人 群 住 在 哪里 ， 以 及 了 解 观 众 赛 后 是 否 更 有 意愿 光顾 比赛 的 赞助 商 ， 从 而 加 强 其 他 地 区 
的 广告 营销 ， 如 图 7-5 所 示 。 

( 2 ) 精准 营销 ( Precision Marketing )。 提 供 广告 投放 支撑 。 
( 3 ) 移动 商务 ( Mobile Commerce )。 主 要 面向 lsis ( Verizon、at&t 和 T-Mobile 
发 起 的 移动 支付 系统 )。 


Bi Sc | Phone companies have started selling troves of customer data 一 including location and Web browsing habits 一 to companies 
18 OCOTE | for marketing purposes. Baow ts an example of hat Verizon data has helped the Phoentx Suns learn about ts fons: 


Verlzon gathers data from PY "sends the nformation EY The data are sold in EY companes can gather insight 

users including location toa ep whereitis aggregate to marketers into their target market 
combined wit ee ‘ike sports arenas, shopping For example the Phoenix Suns 
Such as age range and gend: venues and billboard can find out If game sponsorship 
Prowded By oar compenies. companies. by a store made it more likely 


for game attendees to go to 
that store after the game. 


图 7-5 太阳 队 用 Precision Market Insights 分 析 商 业 数 据 


例如 ， 美 国 的 Clear Channel Outdoor Holdings 是 全 球 最 大 的 广告 牌 公司 之 一 ， 目 
前 也 在 试用 Verizon 的 Precision Market Insights 服务 。 他 们 用 这 项 服务 来 衡量 开车 经 
过 广告 牌 的 人 看 到 广告 后 ， 有 多 少 人 会 去 商店 购买 广告 产品 。 

【 案例 解析 】])， 很 长 一 段 时 间 内 ， 运 营 商 在 对 外 提供 数据 服务 时 ， 往 往 停留 于 提供 
原始 数据 层面 ， 人 而 对 于 提供 高 附加 值 的 数据 分 析 服务 ， 则 
是 “ 雷 声 大 ， 雨 点 小 "， 或 者 “说 得 漂亮 ， 做 的 少 "。 

在 本 案例 中 ，Verizon ee 在 运营 商 数据 能 力 商 业 化 方面 迈 出 了 可 
喜 的 一 步 。Verizon 通过 更 精准 地 掌握 用 户 信 息 和 用 户 行为 ， 显 然 可 以 提高 营销 的 定向 
性 ， 如 图 7-6 所 示 。 a 尽管 运营 商 做 的 事情 似乎 跟 水 厂 、 电厂 无 异 ， ei 
最 大 的 不 同 正 是 在 于 管道 里 面 的 东西 : 数据 流 。 跟 管道 流 消 的 水 和 电 不 同 ， 运 营 商 管 
流 消 的 这 种 数据 流 绝对 不 是 同 质 化 的 。 通 过 对 数据 包 的 层 层 抽 丝 剥 草 ， ae 
来 的 。 运 营 商 只 需 对 数据 包 进 行 深度 分 析 ， 即 可 抓 取 URL、 关 键 字 等 信息 。 

亏 家 提醒 

按照 营销 大 师 菲利普 。 科 特 勒 的 精准 营销 理论 ，“ 公 司 需要 更 精准 、 可 衡量 和 高 投资 回 

报 的 营销 沟通 , 需要 更 注重 结果 和 行动 的 营销 传播 计划 , 还 有 越 来 越 注重 对 直接 销售 沟通 的 
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@@ 深度 洞察 消费 者 @ 将 数据 变 成 商业 创意 
@ 受众 碎片 化 后 重 聚 @ 由 实时 数据 萌发 创意 
@ 发 现 需求 和 价值 @ 为 消费 者 量 身 定做 创 
意 广告 
@@ 颠覆 广告 公司 传统 作 
业 模式 


. 鹿 菇 钙 


两 骂 旦 网 泊 琶 


@ 基于 数据 支持 的 传播 策略 

@@ 缩短 沟通 距离 , 提供 决策 支持 

@ 从 买 媒体 到 买 受众 @ 从 效果 评估 到 未 来 预测 
@@ 构建 长 期 稳固 的 品牌 关系 @ 实时 效果 追踪 分 析 

回 实时 可 控 的 传播 过 程 @ 预测 未 来 ， 创 造 新 价值 


图 7-6 运营 商 在 大 数据 时 代 的 精准 营销 策略 
7.2.4 【案例 】 中 国联 通 开启 大 数据 探索 之 路 


据悉 ， 中 国联 通 在 “移动 通信 用 户 上 网 记录 集中 查询 与 分 析 支 撑 系 统 ” 上 引入 了 基 
于 英特尔 发 行 版 Hadoop 的 大 数据 解决 方案 , 并 已 经 部 署 了 4.5PB 的 存储 空间 ， 用 于 支 
撑 全 网 数 亿 用 户 的 查询 工作 。 目 前 ， 该 系统 已 经 
具备 了 每 天 处 理 700 亿 条 上 网 记录 的 能 力 。 

另外 ， 中 国联 通 目前 正在 着 手 对 大 数据 业务 


< 
《 2 
进行 研究 ， 并 已 经 成 立 了 云 数据 运营 中 心 ， 计 划 Pp 人 


| 谤 内 4 而 六 .0 的 


依靠 该 部 门 逐步 尝试 开展 大 数据 业务 的 运营 工 


作 ， 并 计划 将 该 运营 中 心 公司 化 ， 进 行 独立 的 运 二 
营 ， 如 图 7-7 所 示 。 i 
中 国联 通 云 计算 基地 选 址 在 贵州 省 贵 安 新 区 6《》siifst EO 


电子 信息 产业 园 大 数据 核心 区 , 计划 投资 约 50 亿 用 户 手机 用 户 手机 
元 ， 主 要 建设 基础 构架 、 数 据 中 心 资源 地 、 灾 备 
系统 、 机 房 建设 等 设施 。 云 计算 基地 项 目 建成 后 ， 
将 形成 以 云 计 算 基 地 为 基础 、 辐 射 周边 的 产业 园区 集群 ， 带 动 战略 性 新 兴 产 业 全 面 、 系 
统 、 有 序 发 展 ， 打 造 具 备 云 计算 基础 的 新 兴 产业 聚集 地 。 

中 国联 通 研究 院 副 院 长 黄 文 良 表示 ， 大 数据 业务 开发 的 主要 工作 分 为 三 步 走 : 大 数 


图 7-7 云 数据 运营 


据 的 采集 、 传 输 、 集 中 存储 ;大 数据 的 抽取 、 清 洗 、 分 类 、 挖 掘 、 分 析 处 理 ; 基于 大 数 
据 的 业务 和 应 用 开发 。 

目前 看 来 ， 大 数据 在 中 国联 通 的 应 用 领域 非常 广泛 ， 如 应 用 于 移动 互联 网 、 电 子 商 
务 、BSS、 市 场 营 销 、 客 户 服务 、 网 络 建设 维护 等 领域 。 大 数据 在 中 国联 通 的 应 用 如 表 7-2 
所 示 。 


.. 户 菇 二 


表 7-2 大 数据 在 中 国联 通 的 应 用 
主要 应 用 细节 应 用 
@ 为 移动 用 户 的 流量 消费 提供 明明 白白 的 清单 
@ 为 用 户 流量 争议 和 投诉 提供 解决 手段 
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上 网 记录 查询 。 |@ 提升 公司 服务 水 平 ， 减 少 退 费 和 赔付 站 
@ 为 移动 互联 网 用 户 上 网 行为 、 应 用 偏好 分 析 提供 基础 信息 Ww 
| GO 大 数据 系统 可 以 满足 国家 对 移动 互联 网 不 良 信息 的 监管 要 求 ， 为 移动 ” 下 
ee 互联 网 的 健康 发 展 保驾 护航 台 
@ 对 移动 互联 网 的 不 良 信息 可 实时 监测 和 事后 追溯 信 
GD 基于 服务 用 户 手机 的 基站 信息 ， 可 以 获知 用 户 的 当前 位 置 
和 交 @ 对 用 户 的 位 置 数据 加 以 保存 ， 可 以 实现 用 户 全 生命 周期 的 轨迹 服务 。 。 全 
例如 ， 在 汶川 地 震 和 2008 年 雪灾 发 生 时 ， 可 以 找 出 当时 全 国联 通 有 多 少 歼 
人 漫游 在 发 生地 据 

@ 可 全 网 统一 漫游 欢迎 词 的 发 送 时 间 、 发 送 内 容 、 发 送 短信 接 入 号 、 发 ”一 一 
短信 漫游 欢迎 词 | 送 频次 等 标准 13 


@ 漫游 欢迎 词 可 以 作为 公司 自 有 业务 宣传 的 窗口 ， 也 能 开发 出 企业 名 片 
等 后 向 收费 业务 ， 蕴 含 着 巨大 的 经 济 效益 
Q@ 智能 手机 上 ， 用 户 都 采用 NET 方式 上 网 ， 用 户 手 机 号 码 的 实时 获取 和 
NET 取 号 及 管道 | 传送 ， 是 实现 移动 互联 网 业务 个 性 化 服务 的 基础 
智能 服务 @ 用 户 身 份 识别 、 终 端 、 位置、 承载 网 络 等 能 力 的 开放 ， 是 智能 管道 的 
重要 组 成 部 分 
GGSN 设备 (Gateway GPRS Support Node， 网 关 GPRS 支持 节点 ) 主要 实 
现 数据 包 在 WCDMA 移动 网 和 外 部 数据 网 之 间 的 路 由 和 封装 
@ 利用 周边 已 有 基站 的 流量 数据 来 预测 新 建 3G 基站 的 效益 , 可 以 提高 新 
3G 基站 辅助 规划 | 建 基 站 的 有 效 性 
和 运行 监测 系统 ”|@ 可 以 实时 掌握 新 建 基站 的 竣工 情况 ， 并 能 对 新 建 基站 实现 后 评估 
@ 通过 基站 小 区 流量 的 异常 变动 数据 ， 及 时 监测 基站 的 运行 情况 


内 容 计 费 服务 


@ 利用 大 数据 发 现 用 户 是 2G 终端 还 是 3G 终端 

@ 利用 大 数据 发 现 哪些 2G 基站 下 数据 流量 较 高 ， 分 析 其 下 用 户 是 否 是 
流量 经 营 3G 用 户 回落 到 2G 基站 下 的 ? 终端 是 否 支持 3G 基站 

图 通过 大 数据 分 析 ， 得 知 用 户 偏好 ， 把 合适 的 应 用 推荐 给 合适 的 人 ， 提 

高 其 数据 使 用 量 


两 如 冯 部 曾 全 . . 漳 澳 才 


衣 检 站 芭 和 让 .0 的, 


续 表 


主要 应 用 细节 应 用 
Q 搜索 最 能 体现 用 户 需 求 的 内 容 ， 通 过 用 户 搜索 内 容 可 以 了 解 用 户 的 潜 
精准 广告 推送 在 需求 
平台 @ 对 用 户 的 搜索 内 容 进 行 分 析 挖 掘 ， 可 以 实现 针对 用 户 需求 的 广告 精准 
投放 
Q@ 发 现 用 户 使 用 的 终端 类 型 ， 为 用 户 应 用 针对 性 配置 
终端 管理 服务 @ 通过 对 用 户 使 用 终端 历史 的 类 型 分 析 ， 可 以 发 现 用 户 的 终端 品牌 偏好 ， 
实现 新 上 市 终端 的 定向 推荐 
@) 通过 实时 分 析 新 增 终端 的 数据 ， 可 以 实时 了 解 终端 的 销售 情况 
客户 互联 网 业务 “| 发现 和 保存 用 户 的 互联 网 特征 数据 ， 这 对 新 业务 推荐 和 公司 的 流量 提升 等 
属性 管理 具有 较 高 的 价值 


【 案例 解析 }，Hadoop 是 个 开源 的 系统 ， 与 一 些 商业 系统 比 起 来 ， 成 本 是 很 低 的 ; 
而 且 经 过 英特尔 的 “改良 ”和 技术 支持 ， 使 用 者 也 能 得 到 技术 保障 。 在 本 案例 中 ， 作 为 
电信 运营 商 的 主力 之 一 ， 联 通 应 该 把 握 住 这 个 环节 ， 而 现在 主要 的 战略 环节 就 是 把 握 大 
数据 的 仓库 。 

笔者 认为 ， 联 通 作为 电信 运营 商 ， 没 有 必要 跟 其 他 的 企业 比拼 ， 要 做 的 事情 是 把 大 
数据 这 座 “ 金 矿 ” 管 理 好 ， 并 充分 发 挥 其 价值 。 同 时 ， 以 “应 用 ”为 核心 ， 通 过 对 数据 
的 深度 挖掘 、 协 同 共享 、 应 用 整合 ， 创 新 大 数据 产业 发 展 模式 。 例 如 ， 运 营 商 可 以 与 互 
联网 公司 强 强 联合 ， 构 建 先进 的 云 平台 ， 推 出 面向 政府 、 行 业 、 企 业 、 公 众 的 个 性 化 应 
用 产品 ， 党 试 合作 运营 增值 服务 ， 将 云 存储 业务 演变 为 ， “数据 银行 保险 箱 ” 业 务 ， 打 造 
针对 中 小 企业 、 行 业 用 户 的 银行 级 数据 存储 平台 。 


7.2.5 【案例 】 法 国电 信 大 力 发 掘 大 数据 价值 


法 国电 信 为 了 发 掘 大 数据 的 价值 ， 目 前 已 在 移动 业务 部 门 和 公共 服务 领域 进行 了 探 
索 和 尝试 。 

Orange Business Services 是 法 国电 信 Orange 的 分 部 ， 同 时 也 是 法 国 最 大 的 运营 
商 ， 专 门 提供 B2B ( Business To Business， 企 业 对 企业 之 间 的 营销 关系 ) 服务 ， 其 拥 
有 全 球 最 大 最 畅通 的 语言 和 数据 网 络 , 覆盖 220 个 国家 及 地 区 ,其 中 166 个 设 有 当地 支 
持 ， 并 提供 云 计 算 、 企 业 移动 性 、M2M ( Machine-to-Machine， 即 机 器 和 机 器 的 连接 )、 
安全 、 统 一 通信 、 视 频 会 议 及 宽带 等 综合 通信 服务 。 

Orange Business Services 的 策略 是 用 云 计 算 的 方式 为 客户 提供 存储 资源 ， 使 得 企 
业 客户 能 够 以 经 济 有 效 的 方式 妥善 保存 私有 数据 ， 并 且 充 分 发 挥 数 据 智 能 的 作用 。 

在 移动 业务 部 门 ，Orange Business Services 已 在 借助 大 数据 改善 服务 水 平 ， 提 升 


用 户 体验 。 目 前 ， 法 国电 信 开 展 了 针对 用 户 消 费 数据 的 分 析 评 估 ， 以 帮助 法 国电 信 改 善 
服务 质量 。 

例如 ， 当 用 户 的 通话 突然 中 断 时 ，Orange Business Services 会 分 析 产 生 的 原因 并 
做 出 相应 操作 。 除了 技术 故障 外 还 有 网 络 负荷 过 重 , 如 果 某 段 网 络 上 的 掉 话 率 持 续 过 高 ， 
则 意味 着 该 网 络 需要 扩容 。 法 国电 信 通 过 分 析 掉 话 率 数 据 ， 找 出 了 那些 超 负荷 运转 的 网 
络 ， 并 及 时 进行 了 扩容 ， 从 而 有 效 完善 了 网 络 布局 ， 给 用 户 提供 了 更 好 的 服务 体验 ， 获 
得 了 更 多 的 用 户 以 及 业务 增长 。 


专家 提醒 

Orange Business Services 虽然 为 客户 提供 数据 存储 系统 ， 但 是 会 严格 遵守 相关 的 隐私 保 
护 规定 ， 不 会 去 读 取 或 者 使 用 客户 的 这 些 数据 。 

另外 ，Orange Business Services 还 承担 了 法 国 很 多 公共 服务 项 目的 IT 系统 建设 ， 
并 在 这 些 系统 中 开始 尝试 挖掘 大 数据 的 潜在 价值 。 例 如 ，Orange Business Services 承 
建 了 一 个 法 国 高 速 公路 数据 监测 项 目 ， 每 天 都 会 产生 500 万 条 记录 ， 对 这 些 记录 进行 分 
析 就 能 为 行驶 于 高 速 公路 上 的 车 辆 提供 准确 及 时 的 信息 ， 有 效 提高 道路 通畅 率 。 

【 案例 解析 ]， 在 本 案例 中 ，Orange Business Services 目前 已 经 能 够 提供 涵盖 
laaS、WaaS ( 工作 台 站 即 服务 )、SaaS 三 个 层面 的 “ 端 到 端 ” 云 计算 解决 方案 。 其 中 ， 
大 数据 所 需要 的 方案 集中 在 laaS 层 ，Orange Business Services 在 这 一 层面 推出 了 以 
“灵活 计算 ”命名 的 系列 方案 ， 突 出 使 用 灵活 、 计 费 灵活 的 特点 ， 从 而 灵活 满足 用 户 对 
数据 存储 的 ”需求 。 
国外 运营 商 已 有 一 些 突破 性 的 应 用 案例 ， 笔 者 觉得 国内 的 运营 商 也 应 该 紧 抓 这 个 机 
遇 。 对 于 运营 商 来 说 ， 大 数据 等 于 大 价值 。 对 于 IT 企业 ， 大 数据 等 于 大 机 遇 。 通 信行 业 
需求 从 来 都 是 IT 技术 发 展 的 重要 推动 力 , 谁 能 得 到 通信 行业 客户 的 认可 ,必然 会 在 大 数 
据 领 域 大 有 作为 ， 进 而 成 为 大 数据 解决 方案 的 领先 者 、 领 导 者 。 


7.2.6 【案例 】 中 国 移动 大 数据 全 新 战略 定位 


在 2012 年 的 移动 互联 网 国际 研讨 会 上 ， 中 国 移动 董事 长 奚 国 华 提出 了 大 数据 时 代 
全 新 的 移动 互联 网 战略 ， 即 构筑 “智能 管道 "、 搭 建 “ 开 放 平台 ”、 打 造 “ 特 色 业 务 ” 与 
提供 “友好 界面 "。 这 16 字 方针 ， 体 现 了 中 国 移动 在 移动 互联 时 代 全 面 开启 之 际 的 全 新 
战略 定位 。 

就 中 国 移动 的 业务 支撑 能 力 而 言 ， 在 业务 量 方面 ， 用 户 总 数 超过 6 亿 ， 全 年 受理 营 
业 300 多 亿 次 ， 支 撑 网 连接 了 数 十 万 台 营 业 和 客服 终端 ， 全 年 处 理 几 万 亿 张 计 费 话 单 ， 
几 千 万 张 结算 单 ， 全 网 OLTP 处 理 能 力 接近 40 亿 tpmc， 存 储 的 有 效 容量 将 近 20PB。 
这 些 数 据 都 表明 中 国 移动 是 一 家 名 副 其 实 的 大 数据 的 应 用 者 。 
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针对 企业 客户 的 需求 ， 中 国 移动 以 搭建 平台 、 创 新 网 络 等 方式 ， 吸 引 更 多 产业 和 链 合 
作 伙 伴 共同 发 展 ， 打 造 现代 信息 服务 产业 链 。 大 批 设 备 制 造 商 、 系 统 集成 商 、 内 容 服 务 
提供 商 、 营 销 代理 商 等 集合 到 中 国 移动 的 支撑 平台 上 ， 聚 集 起 巨大 的 整合 效应 和 能 量 ， 
为 企业 客户 提供 基于 大 数据 和 移动 互联 网 的 信息 化 服务 。 

中 国 移动 的 经 营 分 析 体系 所 采取 的 是 先 构建 数据 仓库 ， 再 逐渐 满足 应 用 需求 ， 即 先 
把 数据 沉淀 下 来 ， 再 去 考虑 数据 的 使 用 问题 。 中 国 移动 作为 IDC 业务 新 进入 者 ， 在 竞争 
激烈 的 市 场 条件 下 , 发 挥 出 了 其 利用 更 先进 的 建造 技术 , 进行 更 合理 的 布局 规划 的 优势 。 

目前 ， 中 国 移动 已 经 在 云 平 台 上 部 署 了 分 析 型 PaaS 产品 ， 利 用 BC-Hadoop 构建 
大 数据 处 理 平 台 ， 并 在 英特尔 “Xeon + Hadoop” 平 台 上 和 运行， 同时 建设 了 并 行 数 据 控 
掘 系统 ( BC-PDM&ETL ) 以 及 商务 智能 平台 ( BI-PAAS ) 等 大 数据 应 用 平台 ， 为 将 来 进 
入 大 数据 应 用 和 服务 市 场 做 了 充分 准备 。 中 国 移动 的 大 数据 战略 具体 可 以 分 为 3 步 ， 如 
图 7-8 所 示 。 


从 海量 数据 中 挖掘 金 矿 ， 提 炼 出 “基本 属性 、 业 务 特征 、 消 费 


第 一 步 ， 挖 振 数 据 ”| >| 特征 、 活动 偏好 、 终端 偏 好、 渠道 偏好 、 内 容 偏好 、 服 务 偏好 ” 


等 八 类 客户 标签 ， 实 现 对 客户 的 超 细 分 与 洞察 。 


中 国 移动 通过 基于 大 数据 能 力 实现 的 全 面 客户 理解 ， 以 及 对 客 
户 行 为 、 关 键 事件 的 实时 感知 ， 精 准 定位 目标 客户 ， 掌 握 诸 如 
客户 换 机 、 流 量 溢 出 、 话 务 沉默 等 关键 时 刻 ， 细 分 营销 颗粒 度 、 
开展 个 体 营销 、 适 时 营销 以 及 融合 营销 业务 。 


第 二 步 : 精准 定位 | 志 一 久 


通过 大 数据 、 超 细 分 、 微 营销 提升 中 国 移动 前 向 及 后 向 营销 服 
务 能 力 。 

— > 前 向 实践 包括 定向 且 明 确 的 终端 营销 、 实 时 可 靠 流量 查询 

第 三 步 : 开展 营销 提醒 、 体 验 提升 的 个 性 化 内 容 业务 营销 、 创新 的 余 量 置换 。 

> 后 向 营销 实践 包括 差异 化 的 合作 伙伴 后 向 能 力 保障 、 双 启 


的 店铺 选 址 、 智 慧 的 城市 管理 。 


图 7-8 中 国 移动 的 大 数据 战略 


目前 ， 中 国 移动 企业 信息 化 系列 产品 已 经 得 到 270 万 家 企业 客户 的 认可 ,广泛 应 用 
于 金融 、 交 通 、 物 流 、IT、 制 造 等 领域 ， 成 为 助力 企业 高 效 运 作 、 引 导 大 客户 不 断 创 新 、 
推进 中 小 企业 快速 成 长 、 携 手 各 方 合作 伙伴 共 赢 的 强大 动力 。 据 悉 ， 中 国 移动 在 未 来 三 
年 内 还 将 投入 超过 100 亿 元 资金 , 将 IDC 总 面积 扩容 6 倍 , 并 引入 全 部 主流 的 互联 网 服 
务 商 。 

【 案例 解析 】: 在 云 计 算 、 物 联网 等 技术 的 带动 下 ， 中 国 移动 互联 网 也 已 经 步 入 “大 
数据 ”时 代 。 如 何 利用 这 些 “ 大 数据 "， 从 而 开发 出 其 中 的 价值 ， 以 及 “大 数据 ”将 带 
来 哪些 领域 的 繁荣 ， 成 为 运营 商 首要 解决 的 问题 。 在 本 案例 中 可 以 看 出 ， 中 国 移动 在 满 


足 企业 客户 信息 化 需求 上 ， 正 在 逐渐 形成 一 套 成 熟 的 信息 服务 产业 链 。 

根据 大 数据 数据 量 大 、 时 效 性 要 求 高 、 数 据 种 类 及 来 源 多 样 化 等 特征 ， 运 营 商 可 以 
首先 获取 更 多 有 用 的 大 数据 资源 ， 例 如 ， 本” 的 网 汪 全 本 导 ， 包 含 大 量 有 价值 的 用 户 
行为 和 位 置信 息 ， 这 样 的 信息 可 以 加 以 利用 。 笔 者 认为 ， 运营 商 有 了 资源 就 应 该 加 以 利 
用 ， 训 免 大 数据 资源 的 浪费 。 


专家 提醒 
真正 实现 精准 化 营销 和 精细 化 运营 的 秘诀 就 在 于 如 何 利 用 好 运营 商 手中 的 大 数据 。 例 
如 ， 移 动 掌握 的 海量 话 单 、 信 令 、 互 联网 数据 本 身 就 是 一 笔 宝 贵 的 财富 ， 利 用 好 这 些 数 据 ， 
充分 、 及 时 地 对 这 些 数 据 进行 深度 分 析 挖 气 ， 不 仅 可 以 进一步 提升 服务 质量 、 提 高 客户 忠诚 
度 、 挖 气 新 商机 、 增 加 收入 ， 还 可 以 通过 优化 资源 配置 、 减 少 浪费 来 提升 运营 效率 ， 有 效 降 
低 运营 成 本 。 


7.2.7 【案例 】 中 国电 信 大 数据 聚焦 商业 模式 


2009 年 ， 中 国电 信和 启动 了 名 为 “天 经 云 ”的 云 计算 计划 。 

2010 年 ， 中 国电 信 便 开始 在 全 国 6 个 省 市 部 署 了 各 种 资源 池 ( ResourcesPool )， 
进行 内 部 小 规模 的 、 商 用 实验 和 部 署 。 

2011 年 ， 中 国电 信也 率先 发 布 了 专业 化 的 运营 思路 ， 提 出 了 专业 化 运营 思路 。 

2012 年 2 月 ， 中 国电 信 首 先 成 立 了 专业 化 的 云 计算 公司 。 

截止 到 目前 , 中 国电 信 对 外 提供 了 主机 存储 、CDN 等 基础 的 云 计 算 产 品 , 并 于 2013 
年 6 月 1 日 上 线 了 云 主机 网 上 的 实时 销售 ， 在 政务 监管 、 民 生 、 医 疗 等 领域 提供 了 云 产 
品 的 服务 、 云 解决 方案 。 

中 国电 信 作 为 业内 最 大 的 数据 中 心服 务 提 供 商 ,目前 在 国内 拥有 近 300 个 数据 中 心 、 
5 个 海外 数据 中 心 以 及 4 个 全 国 核 心 云 数据 中 心 。 随 着 云 产品 的 深入 应 用 ， 中 国电 信 试 
图 探索 大 数据 的 商业 模式 。 中 国电 信和 最 有 价值 的 大 数据 应 用 表现 在 4 个 方面 ， 分 别 是 语 
音 数据 分 析 、 视 频数 据 分 析 、 网 络 流量 分 析 、 位 置 数据 分 析 ， 如 图 7-9 所 示 。 

人 人 
网 和 大 数据 。 在 “流量 经 营 ” 方 面 ， 中 国电 信 从 “ 话 务 经 营 ” 向 “流量 经 营 ” 转 型 。 结 
合 大 数据 技术 ， 中 国电 信也 将 深入 IDC 服务 以 及 智慧 城市 建设 ， 并 发 气 移 动 互联 与 之 结 
合 的 商机 ， 重 塑 转 型 之 路 。 

【 案例 解析 ]， 总 体 来 看 ， 未 来 电信 市 场 的 一 个 重要 方向 是 运营 商 将 利用 大 数据 来 
推动 业务 转型 。 这 样 电信 业 必 将 大 部 分 的 投资 转向 大 数据 应 用 市 场 。 目 前 电信 行业 硬件 
增 速 较 慢 ， 但 以 云 计算 和 大 数据 为 代表 的 软件 和 服务 已 成 为 电信 业 IT 投资 的 亮点 ， 如 
图 7-10 所 示 。 
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数据 来 源 : CCW Research 2013/07 


图 7-10 中 国电 信行 业 大 数据 应 用 规模 分 析 


中 国电 信 的 数据 只 有 通过 长 期 的 运营 、 使 用 和 剖析 后 ， 才 能 够 发 挥 出 它 的 价值 。 在 
本 案例 中 , 笔者 认为 中 国电 信 在 做 好 数据 挖掘 和 应 用 的 基础 上 , 将 来 还 可 以 往 前 迈 一 步 ， 
帮助 其 他 的 中 小 企业 ， 帮 助 需要 这 些 服务 的 客户 来 提供 一 些 数据 的 挖掘 、 平 台 和 技术 ， 
这 也 许 是 电信 运营 商 的 机 遇 所 在 。 


专家 提醒 
云 计算 技术 在 数据 中 心 领 域 是 一 个 革命 性 的 技术 ， 对 整个 数据 中 心 的 发 展 有 着 重大 影 
响 。 云 计算 模式 可 以 动态 扩展 ， 并 且 可 通过 虚拟 化 资源 、 互 联网 方式 来 对 外 提供 ， 政 府 和 企 
业 可 以 利用 云 计算 的 技术 和 资源 来 进行 灵活 、 低 成 本 、 协 同 的 IT 应 用 部 署 。 
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学 前 提示 

如 何 应 对 “大 数据 ", 是 摆 在 医院 IT 部 门面 前 的 一 个 “大 考验 "。 如 果 处 理 不 好 ,“ 大 
数据 ”就 会 成 为 “大 包 补 ”"、“ 大 问题 "， 反 之 ， 如 果 应 对 得 当 , “大 数据 ” 则 会 为 医院 带 
来 “大 价值 "”。 而 这 一 切 ， 都 离 不 开 科学 地 规划 和 部 署 存 储 架构 。 
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8.1 医疗 行业 大 数据 解决 方案 


随 着 大 数据 在 医疗 与 生命 科学 研究 过 程 中 的 广泛 应 用 和 不 断 扩展 ， 其 数量 之 大 和 种 
类 之 多 令 人 难以 置信 。 例如, 一 个 CT 图 像 含有 大 约 150MB 的 数据 , 而 一 个 基因 组 序列 
文件 大 小 约 为 750MB， 一 个 标准 的 病理 图 则 大 得 多 ， 接 近 5GB。 如 果 将 这 些 数 据 量 乘 
以 人 口 数量 和 平均 寿命 ， 仅 一 个 社区 医院 或 一 个 中 等 规模 制药 企业 就 可 以 生成 和 累积 达 
数 个 TB 甚至 数 个 PB 级 的 结构 化 和 非 结构 化 数据 。 

通过 医疗 大 数据 搜索 病人 信息 ， 找 寻 疾病 线索 ; 通过 移动 APP， 市 民 与 医生 可 以 随 
时 随地 在 线 联系 ， 通 过 物 联 网 技术 ， 病 人 个 体 化 自我 监测 变 成 现实 …… 近 年 来 ， 信 息 技 
术 在 快速 改变 着 传统 医疗 行业 。 大 数据 时 代 ， 以 数据 为 内 容 的 移动 医疗 会 否 颠覆 传统 医 
疗 模式 ? 它 在 医疗 资源 整合 、 医 患 关系 改善 方面 又 会 有 什么 作为 ? 


8.1.1 大 数据 在 医疗 行业 的 应 用 场景 


医疗 行业 很 早 就 遇 到 了 海量 数据 和 非 结构 化 数据 的 挑战 ， 而 近年 来 很 多 国家 都 在 积 
极 推进 医疗 信息 化 发 展 ， 这 使 得 很 多 医疗 机 构 有 资金 来 做 大 数据 分 析 。 因 此 ， 医 疗 行业 
将 和 银行 、 电 信 、 保 险 等 行业 一 起 首先 迈 入 大 数据 时 代 。 麦 肯 锡 在 其 报告 中 指出 ， 排 除 
体制 障碍 ， 大 数据 分 析 可 以 帮助 美国 的 医疗 服务 业 一 年 创造 3000 亿美 元 的 附加 价值 。 


专家 提醒 

医院 和 医疗 行业 面 对 的 大 数据 主要 有 医学 影像 、 视 频 ( 教学 、 监 控 ) 及 文献 等 非 结 构 化 
数据 。 由 于 这 些 数据 增长 很 快 且 结 构 复 杂 ， 给 数据 管理 和 利用 带 来 了 较 大 的 压力 ， 存 储 与 管 
理 成 本 不 断 提高 ， 数 据 利 用 困难 且 利用 率 低 。 

如 表 8-1 所 示 ， 列 出 了 医疗 服务 业 5 大 领域 ( 临床 业务 、 付 款 /定价 、 研 发 、 新 的 商 
业 模 式 、 公 众 健康 ) 的 15 项 应 用 ， 这 些 场景 下 ， 大 数据 的 分 析 和 应 用 都 将 发 挥 巨大 的 
作用 ， 从 而 提高 医疗 效率 和 医疗 效果 。 

表 8-1 大 数据 在 医疗 行业 的 应 用 场景 

具体 作用 


5 大 领域 | 应 用 场 景 


通过 全 面 分 析 病 人 特征 数据 和 疗效 数据 , 然后 比较 多 种 干预 措施 

的 有 效 性 ， 可 以 找到 针对 特定 病人 的 最 佳 治疗 途径 

临床 决策 支持 临床 决策 支持 系统 可 以 提高 工作 效率 和 诊疗 质量 。 目 前 的 临床 决 

系统 策 支 持 系 统 分 析 医 生 输 入 的 条 目 ， 比 较 其 与 医学 指引 不 同 的 地 
方 ， 从 而 提醒 医生 防止 潜在 的 错误 ， 如 药物 不 良 反应 

医疗 数据 透 “| 提高 医疗 过 程 数据 的 透明 度 , 可 以 使 医疗 从 业者 、 医疗 机 构 的 绩 

明度 效 更 透明 ， 从 而 间接 促进 医疗 服务 质量 的 提高 


比较 研究 效果 


临床 操作 


续 表 


5 大 领域 | 应 用 场景 具体 作用 
从 对 慢性 病人 的 远程 监控 系统 收集 数据 , 并 将 分 析 结果 反馈 给 监 
远程 病人 监控 | 控 设备 (查看 病人 是 否 正在 遵从 医嘱 )， 从 而 确定 今后 的 用 药 和 
临床 操作 加 
对 病人 档案 的 在 病人 档案 方面 应 用 高 级 分 析 可 以 确定 哪些 人 是 某 类 疾病 的 易 
先进 分 析 感人 群 。 例如 , 应 用 高 级 分 析 可 以 帮助 识别 哪些 病人 有 患 糖尿 病 
的 高 风险 ， 使 他 们 尽早 接受 预防 性 保健 方案 
自动 化 系统 通过 一 个 全 面 的 一 致 的 索赔 数据 库 和 相应 的 算法 , 可 以 检测 索赔 
准确 性 ， 查 出 欺诈 行为 ， 避 免 重 大 的 损失 
付款 /定价 “| 基于 卫生 经 济 | 在 药品 定价 方面 , 制药 公司 可 以 参与 分 担 治疗 风险 ,例如 基于 党 
学 和 疗效 研究 | 疗效 果 制 定 定价 策略 。 这 对 医疗 支付 方 的 好 处 显而易见 ， 其 有 利 
的 定价 计划 | 于 控制 医疗 保健 成 本 支出 
医药 公司 在 新 药物 的 研发 阶段 可 以 通过 数据 建 模 和 分 析 , 确定 
预测 建 模 最 有 效率 的 投入 产 出 比 , 从 而 配备 最 佳 资源 组 合 。 模 型 基于 药物 
临床 试验 阶段 之 前 的 数据 集 及 早期 临床 阶段 的 数据 集 ,这 样 可 尽 
可 能 及 时 地 预测 临床 结果 
提高 条 床 记 史 | 使用 统计 工具 和 算法 ， 可 以 提高 交 床 试验 设计 水 平 ， 并 在 赂 床 二 
没 引 于 册 统 | 给 辽 段 更 容易 地 招 可 到 二 者。 通过 控 所 病人 数据 ， 评估 招 入 者 
训 计 水 的 统 | 是 否 答 合 试验 条 件 ， 从 而 加 快 临床 二 验 进 程 ,提出 更 有 效 的 临床 
a 试验 设计 建议 ， 并 能 找 出 最 合适 的 临床 试验 基地 
性 订 斌 鸣 数 据 | 分 析 临 床 试验 数据 和 病人 记录 可 以 确定 药品 更 多 的 于 应 症 和 
oct 现 副作用 。 在 对 临床 试验 数据 和 病人 记录 进行 分 析 后 ,可 以 对 药 
物 进行 重新 定位 ， 或 者 实现 针对 其 他 适应 症 的 营销 
通过 对 大 型 数据 集 《 例 如 基因 组 数据 ) 的 分 析 发 展 不 性 化 党 疗 ， 
个 性 化 治疗 。 | 针对 不 同 的 患者 采取 不 同 的 诊疗 方案 ,或 者 根据 患者 的 实际 情况 
调整 药物 剂量 ， 可 以 改善 医疗 保健 效果 ， 减 少 副作用 
疾病 模式 的 “| 通过 分 析 疾病 的 模式 和 趋势 ,可 以 帮助 医疗 产品 企业 制定 战略 性 
分 析 的 研发 投资 决策 ， 帮 助 其 优化 研发 重点 ， 优 化 配备 资源 
站 让 的 信 | 总 加 者 的 临床 记录 和 医疗 保险 数据 集 , 并 进行 高 级 分 析 ,可 以 
六 吕 四 后 | 提 高 医疗 交 付 方 .医疗 服务 提供 方 和 医药 企业 的 决策 能 力 .例如 ， 
的 商 业 。 | 下 诺 闻 | 对 医药 企业 来 说 ,他 们 不 仅 可 以 生产 出 具有 更 佳 疗效 的 药品 , 而 
pe 且 能 保证 药品 适销 对 路 
疝 久 下 和 机 | 由 绍 平 台 和 社区 可 以 成 为 宝贵 的 数据 来 源 ,并 产生 大 量 有 价值 的 
tee 数据 。 例如 ，Sermo.com 向 医药 公司 收费 ， 人 允许 他 们 访问 会 员 信 
区 息 和 网 上 互动 信息 
天 瑶 据 的 使 用 可 以 改善 公众 健康 监控 -公共 卫生 部 门 可 以 通过 恬 荡 全 国 的 吓 者 电 
公众 健康 | 子 病历 数据 库 ， 快 速 检测 传染 病 ， 进行 全 面 的 疫情 监测 ， 并 通过 集成 疾病 监测 和 


响应 程序 ， 快 速 进行 响应 
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8.1.2 ”如 何 从 大 数据 中 获取 医疗 价值 


可 以 说 ， 中 国 的 医疗 正在 到 入 “大 数据 ”时 代 。 医 疗 行业 具有 典型 的 “大 数据 ” 特 
征 : 一 是 数据 量 大 ， 二 是 数据 类 型 复杂 。 

因此 ， 只 有 妥善 处 理 好 存储 架构 ，“ 大 数据 ”才能 给 医院 带 来 “大 价值 "， 才 不 会 成 
为 “大 问题 "。" 大 价值 ”的 具体 表现 如 图 8-1 所 示 。 


2 "| 针对 结构 化 数据 的 
ok “| 存 取 , 一 定 要 “ 快 ”， 
以 提高 效率 。 


例如 ， 电 子 化 让 传统 的 阅 


两 器 旦 网 潭 于 . . 唤 距 才 


医院 虽然 拥有 庞大 的 数 
据 , 但 是 躺 在 那里 睡觉 的 
数据 是 没有 任何 价值 的 ， 
只 有 盘活 这 些 数据 , 才能 
体现 出 数据 资产 的 价值 。 


片 流程 得 以 优化 ， 这 可 以 
帮助 降低 平均 住院 日 ， 绥 
解 医 疗 资源 紧张 的 局 面 。 


图 8-1 医疗 大 数据 的 价值 体现 


| ED 


笔者 相信 终 有 一 天 ， 每 个 老百姓 都 可 以 随时 管理 、 查 询 自己 的 健康 医疗 数据 ， 不 是 
在 遥 不 可 及 的 第 三 方 ， 而 是 在 他 自己 手 里 。 而 且 这 样 的 数据 将 不 局 限于 体检 结果 、 就 诊 
记录 ， 还 可 以 延伸 到 你 的 基因 数据 ， 你 的 日 常 健康 行为 监测 数据 。 你 将 从 法 律 上 拥有 获 
得 这 些 数据 的 权利 ! 此 时 ， 我 们 可 以 真正 地 发 挥 医疗 大 数据 的 价值 ， 人 类 对 自身 的 认识 
也 将 上 一 个 新 的 台阶 。 


8.1.3 ”医疗 领域 大 数据 的 挑战 和 前 景 


大 数据 将 成 为 行业 和 企业 信息 化 建设 的 一 道 分 水 岭 ， 擅 用 大 数据 ， 将 会 给 信息 化 注 
入 活力 ， 并 推动 业务 创新 ， 最 终 帮 助 企业 找到 新 的 增长 点 ， 而 错过 大 数据 的 发 展 机 会 ， 
不 但 无 法 保证 信息 化 建设 的 深入 开展 ， 也 最 终 使 企业 丧失 竞争 优势 。 那 么 , 在 医疗 领域 ， 
大 数据 又 将 面临 哪些 挑战 ? 发 展 前 景 又 会 是 怎样 呢 ? 

1. 大 数据 面临 的 挑战 

面 对 “ 大 数据 ”的 挑战 ， 医 院 必须 考虑 三 个 主要 问题 。 

( 1 ) 数据 存储 是 否 安全 可 靠 ? 因为 系统 一 旦 出 现 故障 ， 首 先 考验 的 就 是 数据 的 存 
储 、 灾 备 和 恢复 能 力 。 如 果 数 据 不 能 迅速 恢复 ,而且 恢复 不 到 断 点 ， 则 会 对 医院 的 业务 、 


患者 满意 度 构 成 直接 损害 。 

( 2 ) 如 何 提高 医院 运行 和 服务 的 效率 ? 提高 效率 就 是 节省 医生 的 时 间 ， 从 而 缓解 
医疗 资源 的 紧张 状况 ， 这 在 一 定 程度 上 可 帮助 解决 “看 病 难 ”问题 。 

( 3 ) 如 何 控制 大 数据 的 成 本 ? 存储 架构 是 否 合理 ， 不 仅 影响 到 医院 IT 系统 的 成 
本 ， 而 且 关乎 医院 的 运营 成 本 。 医 疗 数据 激增 ， 造 成 医院 普遍 存在 着 较 大 的 存储 扩容 压 
力 。 如 今 ， 医 院 的 存储 设备 大 多 是 来 自 不 同 厂商 的 完全 异 构 的 存储 系统 ， 这 些 不 同 的 存 
储 设备 利用 各 自 不 同 的 软件 工具 来 进行 控制 和 管理 ， 这 样 就 增加 了 整个 系统 的 复杂 性 ， 
而 且 管 理 成 本 非常 高 。 


专家 提醒 

如 何 有 效 地 将 大 数据 存储 成 本 降 至 最 低 ， 是 企业 和 IT 领导 者 ， 尤 其 是 医疗 大 数据 面临 
的 根本 性 挑战 。 因 为 除了 数据 数量 和 形态 的 迅速 增加 ， 医 疗 数据 还 需要 越 来 越 长 的 保留 期 。 
患者 的 病历 可 能 需要 保存 70 或 80 年 ,其 至 更 长 。 许多 情况 下 ， 病 历 还 必须 以 原始 格式 永久 
保存 ， 以 满足 法 规 的 要 求 。 

2. 大 数据 的 发 展 前 景 

专家 预测 ， 至 2017 年 ， 全 球 移动 医疗 市 场 价值 将 达 200 多 亿美 元 ， 其 中 我 国 将 占 
到 三 分 之 一 。 面 对 广阔 的 市 场 前 景 ， 怎 样 的 移动 医疗 工具 才 会 最 终 胜 出 ? 笔者 认为 ， 技 
术 关 键 要 链接 医院 、 医 生 和 病人 ， 通 过 移动 医疗 让 病人 真正 获 益 ， 医 生 收 集 数据 后 能 有 
效 改善 医疗 服务 质量 ， 只 有 做 到 这 些 ， 移 动 医疗 才 算 两 全 其 美 。 

2010 年 ,国家 公布 的 “十 二 五 ”规划 中 指出 要 重点 建设 国家 级 、 省 级 和 地 市 级 三 级 
卫生 信息 平台 ， 建 设 电子 档案 和 电子 病历 两 个 基础 数据 库 等 诸 项 目标 ， 也 就 是 推进 医疗 
信息 化 的 “3521” 工 程 ， 如 图 8-2 所 示 。 国 家 会 逐渐 加 大 对 电子 病历 的 投入 ， 各 级 医院 
也 将 加 大 在 数据 中 心 、IT 外 包 等 领域 的 投入 。 而 随 着 医疗 信息 数据 的 几何 倍数 增长 ， 医 
院 信息 存储 将 越 来 越 受到 重视 ， 医 疗 信息 中 心 的 关注 点 也 将 由 传统 “计算 ”领域 转移 到 
“存储 ”领域 上 来 。 


国字 9 了 生 
8-2 医疗 信息 化 “3521” 工 程 的 基本 构架 
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8.2 ”医疗 行业 大 数 据 应 用 案例 


如 果 说 哪个 行业 从 分 析 大 量 不 同 来 源 的 数据 中 受益 ， 那 一 定 是 医疗 。 在 电子 病历 系 
统 、 图 片 系 统 、 电 子 处 方 软件 、 医 疗 索赔 、 公 共 卫 生 报告 、 新 兴 的 健康 应 用 、 移 动 医疗 
设备 及 医疗 产业 中 ， 充 满 了 等 待 被 使 用 的 数据 。 本 节 主 要 介绍 信息 医疗 行业 大 数据 的 应 
用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


8.2.1 【案例 】 利用 大 数据 进行 基因 组 测序 


北 卡 罗莱 纳 大 学 ( 简称 UNC ) 在 基因 组 测序 技术 上 投入 重 资 ， 以 支持 其 医疗 卫生 系 
统 更 好 地 开展 临床 医护 工作 ， 同 时 推进 基因 组 和 生物 基础 研究 。 

该 计划 需要 处 理 大 量 数据 ， 要 求 管理 和 分 析 数 百 乃 至 数 千 人 员 的 基因 组 ， 以 满足 临 
床 医生 和 研究 人 员 的 不 同 需求 。 为 了 解决 这 种 大 数据 难题 , 研究 人 员 采 用 了 三 阶段 流程 ， 
如 表 8-2 所 示 。 


表 8-2 基因 组 测序 的 主要 工作 流程 

细节 说 明 

,阶段 。 | 在 生物 实验 室 中 | 为 每 位 患者 生成 数 以 亿 计 的 短 DNA 序列 , 重新 组 合 基因 组 并 
收集 患者 的 组 织 | 对 重新 组 合 进行 质量 控制 ， 修 正 其 间 出 现 的 错误 

二 阶段 “| 检测 个 人 的 变异 | 使 用 大 量 的 患者 人 群 来 帮助 解决 个 人 序列 数据 中 的 不 确定 之 处 

收集 了 变异 体 之 后 ， 研 究 人 员 会 在 网 站 上 将 有 关 个 人 的 信息 

提供 给 其 医生 


流 程 阶段 


三 阶段 ”| 向 医生 报告 


北 卡 罗 莱 纳 大 学 的 解决 方案 依赖 于 一 个 大 型 商业 集群 ， 该 集群 使 用 50 个 基于 英 特 
尔 @ 处 理 器 的 刀片 服务 器 , 每 周 最 多 可 处 理 30 个 基因 组 。 目前 , 北 卡 罗莱 纳 大 学 在 一 个 大 
型 EMC lsilon 数据 系统 上 存储 了 大 约 200 ~ 300TB 的 基因 组 数据 ， 如 图 8-3 所 示 。 利 用 
Hadoop 系统 ， 研 究 人 员 可 以 进行 极 具 针 对 性 的 分 析 ， 其 很 好 地 改进 了 MapReduce 结构 。 


图 8-3 EMC lsilon 数据 系统 


专家 提醒 

刀片 服务 器 是 指 在 标准 高 度 的 机 架 式 机 箱 内 可 插 装 多 个 卡 式 的 服务 器 单元 , 是 一 种 实现 
HAHD ( High Availability High Density， 高 可 用 高 密度 ) 的 低 成 本 服务 器 平台 ， 为 特殊 应 用 
行业 和 高 密度 计算 环境 专门 设计 。 刀片 服务 器 就 像 “ 刀 片 ”一 样 ， 每 一 块 “ 刀 片 ” 实 际 上 就 
是 一 块 系统 主板 。 

【 案例 解析 }， 在 本 案例 中 ， 基 因 组 测序 是 一 项 新 技术 ， 各 种 事项 都 在 迅速 变化 中 。 
人 们 提出 的 问题 也 在 迅速 变化 ， 因 此 信息 解决 方案 也 必须 具有 可 调整 性 。 

总 体 说 来 ， 大 多 数 医疗 机 构 的 数据 来 自 临 床 、 财 务 、 操 作 的 应 用 程序 。 临 床 数据 能 
提高 医疗 质量 ， 使 人 口 健康 管理 变 得 简单 ， 财务 数据 帮助 医院 对 盈亏 底线 做 成 本 分 析 ; 
而 操作 数据 有 助 于 设备 管理 和 资源 利用 。 把 这 些 都 综合 在 一 起 ， 就 可 以 开始 解决 类 似 满 
足 员工 需求 、 提 高 工作 效率 和 护理 质量 等 大 问题 。 


8.2.2 【案例 】 利用 大 数据 来 预防 流感 疫情 


最 近 ， 美 国 波士顿 和 纽约 宣布 出 现 流感 疫情 。 在 波士顿 市 ， 目 前 已 经 呈报 了 700 个 
案例 ， 其 中 18 人 已 经 死亡 。 为 了 让 疫情 得 到 有 效 的 控制 ， 卫 生 官 员 以 及 应 用 开发 人 员 
向 大 数据 寻求 帮助 。 

虽然 医生 是 控制 疫情 的 “ 主 战 起 器"， 但 是 问题 在 于 ， 目 前 并 没有 足够 的 疫苗 可 以 
普及 所 有 的 人 群 。 此 外 ， 在 研制 流感 疫苗 之 前 ， 需 要 确认 不 同 的 流感 病毒 株 ， 这 样 生产 
出 来 的 疫苗 才能 真正 防止 流感 的 扩散 。 

因此 ， 美 国 疾病 预防 控制 中 心 ( Centers for Disease Control，CDC ) 为 了 防止 流 
感 疫情 的 扩散 ， 已 逐步 使 用 大 量 的 数据 来 了 解 疫情 。 通 常情 况 下 ， 想 要 用 流感 疫苗 阻止 
流感 的 蔓延 , 就 需要 精确 地 找到 目前 影响 某 个 地 区 的 流感 菌株 。CDC 通过 对 流感 和 肺炎 
死亡 的 跟踪 ,来 了 解 流感 疫情 会 不 会 造成 死亡 率 上 升 。 同时 ，CDC 也 做 了 一 些 反 病毒 的 
耐 药 测试 ， 用 以 确保 流感 疫苗 可 以 缓解 流感 的 影响 。 

与 此 同时 ， 美 国 公共 健康 协会 与 斯 科 尔 全 球 性 威胁 基金 进行 合作 ， 推 出 了 一 款 应 用 
程序 一 一 FluNearYou， 用 于 收集 流感 症状 的 发 展 信息 。 只 要 年 满 13 岁 周岁 ， 都 可 以 在 
网 站 上 进行 注册 ， 该 网 站 用 以 监测 流感 的 蔓延 程度 ， 如 图 8-4 所 示 。 

专家 提醒 

FluNearYou 每 周 都 会 做 一 次 调查 报告 , 以 帮助 防 灾 组 织 、 研 究 人 员 以 及 公共 卫生 官员 为 
流感 疫情 的 扩散 做 好 准备 。 更 重要 的 是 ,该 数据 共享 应 用 程序 对 预测 未 来 任何 有 可 能 的 流感 
疫情 爆发 ， 都 有 极 大 的 帮助 。 

作为 全 球 最 大 的 搜索 引擎 ， 每 时 每 刻 都 有 上 百 万 用 户 在 使 用 谷歌 提供 的 搜索 服务 
中 搜索 健康 信息 的 人 亦 不 在 少数 。 这 些 用 户 行为 提供 了 海量 的 有 宝贵 价值 的 分 析 数 
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据 ， 当 然 对 预防 流感 也 是 有 重大 意义 的 。 
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8-4 FluNearYou 主页 上 的 流感 地 图 数据 


因此 ， 谷 歌 开 发 了 一 款 流感 追踪 器 Flu Trends， 它 可 以 监控 相关 的 流感 搜索 字样 ， 
进而 展示 出 在 美国 不 同 州 的 流感 活动 。 美 国 疾病 防止 中 心 ( CDC ) 是 谷歌 Flu Trends 
的 研究 合作 伙伴 。 疾 病 预防 控制 中 心 的 地 图 也 能 够 显示 流感 疫情 的 扩散 程度 ， 如 图 8-5 
所 示 ， 这 些 数据 将 为 人 们 提供 流感 早期 警告 。 
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图 8-5 ”谷歌 流感 动态 追踪 地 图 


后 时， 谷歌 还 推出 了 Flu View， 也 是 一 个 跟踪 工具 ， 它 接收 并 处 理 来 自 医生 、 医 院 
以 及 CDC 实验 室 的 大 量 数据 ， 为 流感 疫情 的 蔓延 提供 了 一 个 清晰 的 图 像 ， 进 而 可 以 帮 
助 医生 能 够 有 效 地 阻止 流感 疫情 的 蔓延 。 

目前 ，Google Flu Trends 已 推广 到 全 球 29 个 国家 ， 并 由 检测 流感 拓展 到 检测 另 一 
种 感染 性 疾病 登革热 。 在 Google Flu Trends 的 启发 之 下 ， 很 多 研究 者 试图 利用 其 他 渠 
道 ( 例如 社交 网 站 ) 的 数据 来 预测 流感 。 

世家 提醒 

例如 ， 纽 约 罗 切 斯 特大 学 的 一 个 数据 挖掘 团队 就 曾 利用 Twitter 的 数据 进行 了 尝试 。 利 
用 团队 开发 的 文本 分 析 工 具 ， 研 究 者 在 一 个 月 内 收集 了 60 余 万 人 的 440 万 条 Twitter 信息 ， 
挖 握 其 中 的 身体 状态 信息 。 最 终 的 分 析 结 果 表 明 ， 研 究 人 员 可 以 提前 8 天 预报 流感 对 个 体 的 
侵袭 状况 ， 而 且 准确 率 高 达 90%。 

【案例 解析 }， 近 些 年 ， 一 些 大 规模 的 传播 疾病 一 直 没 有 间断 ， 从 非典 到 H7N9， 病 
毒性 流感 一 波 又 一 波 袭 扰 人 类 ， 流 感 病毒 不 断 变异 并 传播 开 来 ， 令 药物 和 疫苗 要 么 准备 
不 及 ， 要 么 无 法 预防 。 但 是 如 果 能 提早 发 现 流感 的 发 病 趋 势 ， 不 仅 能 为 抗 病毒 药物 的 准 
备 争取 宝 贵 的 时 间 ， 而 且 还 有 助 于 疫苗 研发 机 构 尽早 采取 措施 。 

可 以 想见 ， 流 感 流行 季 ， 搜 索 流感 症状 的 人 会 飙升 ， 而 在 流感 高 发 地 带 ， 这 一 比例 
会 相应 提高 。 这 意味 着 流感 相关 关键 词 的 搜索 趋势 与 流感 的 流行 趋势 及 严重 程度 存在 某 
种 程度 的 相关 性 。 尽 管 并 不 是 每 个 搜索 这 类 关键 词 的 人 都 有 流感 症状 或 患 有 流感 ， 但 把 
这 些 搜索 结果 汇总 到 一 起 时 ， 或 许可 以 从 中 建立 起 一 个 准确 可 靠 的 模型 ， 实 时 监控 时 下 
的 流感 疫情 ， 并 对 未 来 疫情 状况 进行 估 测 。 

本 案例 中 的 FluNearYou 与 Google Flu Trends 都 是 采用 这 一 大 数据 应 用 ,来 达到 预 
测 未 来 疫情 状况 的 目的 。 其 实 针 对 美国 在 流感 疫情 防治 领域 所 做 的 工作 ， 中 国 疾病 预防 
控制 中 心 以 及 有 关 部 门 也 可 以 学 习 ， 一 个 良好 的 疾病 疫情 监控 信息 系统 ， 真 的 可 以 帮助 
控制 疫情 的 蔓延 ， 为 我 们 的 治疗 防治 工作 赢得 更 多 的 时 间 。 

不 过 ， 需 要 注意 的 是 ， 即 使 在 大 数据 的 帮助 下 ， 医 生 永远 也 不 可 能 完全 地 阻止 流感 
的 产生 ， 医 生 能 够 做 到 最 好 的 就 是 一 一 控制 流感 疫情 。 


8.2.3 【案例 】 用 大 数据 预测 心脏 病 发 作 率 


麻 省 理工 学 院 、 密 软 根 大 学 和 一 家 妇女 医院 创建 了 一 个 计算 机 模型 ， 可 利用 心脏 病 
患者 的 心电图 数据 进行 分 析 ， 预 测 在 未 来 一 年 内 患者 心脏 病 发 作 的 几率 。 

通常 情况 下 ， 医 生 只 会 花 30 秒 钟 来 观看 用 户 的 心电图 数据 ( 如 图 8-6 所 示 )， 而 且 
缺乏 对 之 前 数据 的 比较 分 析 ， 这 使 得 医生 对 70% 的 心脏 病 患者 再 度 发 病 缺 乏 预 判 ， 而 现 
在 通过 机 器 学 习 和 数据 挖掘 ， 该 模型 可 以 通过 累积 的 数据 进行 分 析 ， 发 现 高 风险 指标 。 
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【 案例 解析 】}， 从 本 案例 可 以 看 到 ， 将 “大 数据 ”运用 到 医学 上 不 仅 可 以 建立 完善 
的 医疗 系统 ， 更 重要 的 是 对 于 患者 病情 的 预测 以 及 控制 会 有 巨大 的 作用 。 大 数据 一 直 在 
改变 历史 进程 。 而 对 于 我 们 普通 人 而 言 ， 虽 然 对 于 大 数据 的 概念 云 里 雾 里 ， 但 在 生活 中 
却 每 天 都 和 它 打 交道 。 大 数据 也 在 不 经 意 间 改 变 着 我 们 的 小 生活 。 
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图 8-6 心电图 数据 
8.2.4 【案例 】 大 数据 Bl 促进 医院 智能 化 
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近日 , 悉尼 西区 健康 服务 中 心 应 用 BI 系统 , 使 医院 管理 人 员 可 以 在 几 分 钟 甚至 几 十 
秒 之 内 看 到 医院 的 各 个 环节 的 运行 状况 和 管理 状态 ， 以 及 各 个 病人 的 状态 如 何 、 医 疗 服 
务 如 何等 。 悉 尼 西 区 健康 服务 中 心 所 应 用 的 BI 系统 具备 三 个 特点 ， 如 图 8-7 所 示 。 


8-7 ”悉尼 西区 健康 服务 中 心 BI 系统 的 特点 
当然 , 并非 所 有 的 医疗 机 构 应 用 了 BI 都 能 达到 这 样 好 的 效果 , 一 开始 ,悉尼 西区 健 


康 服务 中 心 选用 了 SAP 的 BI 产品 ， 并 在 此 技术 上 进行 了 二 次 开发 ， 经 过 多 年 的 发 展 ， 
该 中 心 终于 使 得 BI 切实 融入 到 了 整个 IT 架构 中 ， 并 发 挥 出 良好 的 作用 。BI 的 应 用 改变 
了 传统 的 数据 获取 和 分 析 方 式 ， 使 得 决策 者 可 以 通过 快速 准确 的 数据 进行 准确 有 效 的 决 
策 。BI 不 只 是 一 种 工具 ， 它 带 来 的 是 一 种 管理 理念 和 手段 的 变革 。 
世家 提醒 

SAP 是 全 球 知名 的 企业 管理 和 协同 化 商务 解决 方案 供应 商 , 其 致力 于 为 企业 实现 卓越 运 
营 提供 领先 的 企业 应 用 云 计算 、 商 务 分 析 、 移 动 商务 、 内 存 计算 等 解决 方案 。SAP 大 数据 解 
决 方案 主要 集中 在 数据 库 及 数据 仓库 层面 和 企业 信息 管理 层面 。 其中， 数据 仓库 及 数据 仓库 
解决 方案 主要 由 实时 数据 平台 HANA、 分 析 型 数据 库 SAP Sybase IQ 和 交易 型 数据 库 Syabse 
ASE 来 处 理 ， 企 业 信 息 管 理 主要 由 SAP Information Steward、SAP NetWeave、 企 业内 容 管 理 
(ECM ) 来 处 理 。 


【 案例 解析 】， 医 疗 行业 是 世界 上 最 复杂 的 行业 之 一 ， 因 为 在 医疗 机 构 中 ， 它 所 服 
务 的 对 象 是 各 种 不 同类 型 的 人 ， 这 里 不 仅 包括 提 供 服务 的 医生 、 护 士 ， 还 包括 不 同类 型 
的 患者 ， 再 加 上 医院 的 基础 设施 、 各 种 医疗 器 械 等 都 需要 管理 ， 这 些 都 给 医疗 行业 的 运 
作 带 来 了 很 大 的 复杂 性 。 

大 数据 BI 系统 正 是 以 上 这 些 问 题 的 最 好 解决 方式 。 大 数据 BI 是 能 够 处 理 和 分 析 大 
数据 的 Bl 软件 ， 区 别 于 传统 BI 软件， 大 数据 BI 可 以 完成 对 TB 级 别 数据 的 实时 分 析 。 

例如 ， 国 内 很 多 医疗 机 构 非 常 热衷 于 采购 医疗 器 械 ， 如 CT、 核 子 共 振 等 高 级 设备 ， 
应 用 这 些 设 备 确实 能 够 提升 医院 的 服务 能 力 ， 医 院 也 能 借 此 获取 更 多 的 收益 。 但 是 ， 如 
果 这 些 设备 中 所 产生 的 数据 无 法 快速 传达 到 医生 那里 ， 供 他 做 出 参考 和 判断 ， 势 必 会 大 
大 降低 设备 的 效率 ， 设 备 本 身 的 价值 会 被 浪费 掉 。 目 前 ， 大 部 分 医疗 器 械 都 是 数字 化 产 
品 , 它们 的 应 用 都 需要 与 之 相配 套 的 IT 系统 作为 支撑 ， 以 便 让 其 产生 的 数据 能 够 快速 传 
递 出 去 ， 才 能 真正 发 挥 其 作用 。 

笔者 认为 ， 在 BI 系统 的 应 用 上 ， 医 院 应 该 以 现 有 的 成 熟 的 BI 产品 为 基础 ， 进 行 一 
些 自己 的 开发 ， 并 将 BI 系统 与 其 他 医疗 信息 化 系统 整合 起 来 ,这样 才能 发 挥 其 作用 。 此 
外 ,对 于 那些 专业 的 医疗 信息 化 系统 ,医院 没有 必要 自己 开发 ， 只 需要 选用 成 熟 的 产品 ， 
并 在 异 构 的 系统 上 进行 二 次 开发 ， 将 其 集成 在 一 起 即 可 。 


专家 提醒 
如 果 说 IT 系统 已 经 成 为 医院 的 “血液 系统 ”和 “循环 系统 ”"， 那 么 ， 大 数据 BI 已 经 成 
为 医院 的 “神经 系统 ”。 


8.2.5 【案例 】 用 大 数据 “ 魔 毯 ” 改 善 健康 


不 久 前 ， 英 特 尔 ( Intel )、 通 用 电气 ( GE ) 联合 宣布 ， 两 家 公司 已 经 达成 最 终 合 作 
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协议 ， 共 同 出 资 成 立 一 家 新 的 医疗 保健 公司 ， 关 注 远程 医疗 和 独立 生活 。 

医疗 创新 公司 主要 业务 是 开发 和 推广 能 够 增强 家 庭 和 社区 健康 、 独 居 生 活 的 产品 、 
服务 和 技术 ， 并 重点 关注 三 大 领域 : 慢性 病 治 疗 、 独 立 生 活 、 辅 助 技术 。 

医疗 创新 公司 成 立 不 久 后 便 推 出 了 两 款 针 对 家 庭 医疗 的 产品 : 

> Health Guide。Health Guide 适用 于 慢性 病人 ， 可 以 监控 各 种 人 体 机 能 ， 提 取 吃 药 


时 间 、 血 压 、 体 重 等 数据 并 发 给 相关 的 医疗 机 构 ， 它 还 支持 病人 和 医生 进行 电话 
和 视频 会 议 , 从 而 提升 病人 的 生活 质量 , 让 病人 不 必 总 是 亲自 到 医院 看 医生 。Health 
Gnuide 产品 如 图 8-8 所 示 。 

> ”Reader。 它 是 一 种 便携 式 设备 ， 可 自动 将 印刷 文本 转换 成 数字 文本 并 朗读 出 来 ， 帮 
助 盲人 和 有 阅读 障碍 的 人 进行 阅读 ， 如 图 8-9 所 示 。 
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8-8 Health Guide 图 8-9 Reader 


目前 ， 医 疗 创 新 公司 正在 研究 一 种 “ 魔 秘 "， 这 块 地 秘 配 备 传感器 和 加 速 器 ， 可 以 
安装 在 老年 人 家 中 。 传 感 器 可 以 感应 那些 缺乏 人 照料 的 老人 下 床 和 行走 的 速度 和 压力 ， 
一 旦 这 些 数据 发 生 异 常 则 对 老人 的 亲人 发 送 一 个 警报 。 

【 案例 解析 }， 当 今 一 系列 重大 社会 问题 ， 包 括 人 口 老 龄 化 、 高 昂 的 医疗 成 本 、 为 
数 众多 的 慢性 疾病 患者 等 ， 需要 新 的 护理 服务 模式 来 解决 。 笔 者 认为 , 我 们 必须 跳出 “去 
医院 和 诊所 看 病 ” 这 种 旧 模式 ， 转 变 为 以 家 庭 和 社区 为 基础 的 护理 模式 ， 从 而 将 预防 、 
早期 诊断 、 医 疗 保健 行为 改变 和 社会 支持 结合 起 来 。 

在 本 案例 中 ， 虽 然 内 置 传感器 装置 对 大 多 数 人 来 讲 依然 昂贵 ， 但 由 于 这 些 将 自身 数 
据 量 化 的 小 工具 越 来 越 受到 欢迎 ， 用 户 可 以 清楚 地 了 解 和 改变 自身 的 行为 ， 从 而 改善 健 
康 状 况 。 


8.2.6 【案例 】 用 大 数据 分 析 找 出 治疗 方案 


代谢 综合 征 ( Metabolic Syndrome，MS ) 是 多 种 代谢 成 分 异常 聚集 的 病理 状态 ， 


D> 


是 一 组 复杂 的 代谢 紊乱 症候 群 ， 是 导致 糖尿 病 ( DM )、 心 脑 血管 疾病 ( CVD ) 的 危险 因 
素 ， 其 集 复 发 生 可 能 与 胰岛 素 抵抗 ( IR ) 有 关 ， 目 前 已 成 为 心 内 科 和 糖尿 病 医师 共同 关 
注 的 热点 ， 国 内 外 至 今 对 它 的 认识 争议 颇 多 。 

美国 安泰 保险 为 了 帮助 改善 代谢 综合 征 患者 的 预测 ， 从 一 千 名 患者 中 选择 102 个 完 
成 试验 。 在 一 个 独立 的 工作 实验 室内 ， 通 过 患者 的 一 系列 代谢 综合 征 的 检测 试验 结果 ， 
在 连续 三 年 内 ， 扫 描 600000 个 化 验 结果 和 处 理 18 万 个 索赔 事件 。 

安泰 保险 通过 大 数据 分 析 ， 将 最 后 的 结果 组 成 一 个 高 度 个 性 化 的 治疗 方案 ， 以 评估 
患者 的 危险 因素 和 重点 治疗 方案 。 

【 案例 解析 }， 大 多 数 疾病 可 以 通过 药物 来 达到 治疗 效果 ， 但 如 何 让 医生 和 病人 能 
够 专注 参加 一 两 个 可 以 真正 改善 病人 健康 状况 的 干预 项 目 却 极 具 挑 战 。 在 本 案例 中 ， 安 
泰 保险 正 尝 试 通过 大 数据 达到 此 目的 。 笔 者 也 认为 ， 让 保险 公司 在 先进 的 分 析 上 花 钱 ， 
比 起 让 医疗 机 构 来 投资 简单 得 多 。 


8.2.7 【案例 】 手表 成 为 大 数据 的 有 力 武器 


据 美国 心脏 学 会 说 ， 每 4 个 美国 人 中 就 有 一 人 患 高 血压 ， 这 些 人 中 还 有 三 分 之 一 的 
人 根本 未 意识 到 。 虽 然 每 个 医生 都 会 对 患者 量 血压 ， 但 是 没有 几 个 人 会 24 小 时 监测 病 
人 血压 。 

近日 ， 新 加 坡 研究 人 员 发 明了 一 种 名 为 BPro 的 黑色 塑料 血压 监控 手表 ， 只 要 戴 在 
患者 的 手腕 上 ， 就 会 24 小 时 密切 监控 血压 ， 如 图 8-10 所 示 。 
BPro 内 部 有 一 个 传感器 ， 通 过 计算 手腕 上 动脉 跳动 的 次 数 ， 
再 转换 成 血压 读数 。BPro 除 可 显示 波浪 形 曲线 ， 表 明 心 脏 跳 
动 频率 和 力度 外 ， 还 可 显示 血压 方面 任何 令 人 担忧 的 趋势 。 

人 们 在 医院 测量 血压 时 ， 紧 张 的 心情 可 能 导致 血压 异常 。 
此 外 ， 人 体 血 压 随时 在 发 生变 化 , 即使 单独 一 次 测量 能 够 得 出 
准确 结果 ,也 难以 反映 心血 管 系统 运作 状况 的 全 貌 。 与 需要 和 暂 
时 阻 断 动脉 血 流 然 后 放 气 来 测量 血压 的 传统 血压 计 不 同 ， 
BPro 血压 计 通过 监测 脉搏 波 沿 手 部 动脉 的 传播 速度 来 计算 血 
压 , 它 还 比 一 般 的 便携 血压 计 轻 便 得 多 ， 可 以 像 手表 一 样 随身 
佩戴 。 

研究 人 员 不 仅 用 BPro 治疗 那些 血压 非常 高 的 人 ， 也 正 把 
目光 瞄准 那些 没有 任何 症状 的 人 。 让 病人 戴 上 这 种 血压 监控 手表 ， 不 仅 可 能 降低 心脏 病 
和 中 风 发 病 率 , 还 可 收集 大 量 数据 。 通 过 持续 测量 血压 状况 ，BPro 使 医生 能 详细 了 解 佩 
戴 者 的 血压 变动 ， 及 时 发 现 异常 状况 ， 最 终 将 有 可 能 利用 这 些 数据 来 预测 心脏 病 发 病 
时 间 。 


图 8-10 BPro 血压 计 
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【 案例 解析 】]) 从 本 案例 可 以 看 到 ， 大 数据 的 挑战 不 仅 来 自 数据 量 的 增长 ， 还 需要 
新 技术 的 支持 。 因 此 ， 信 息 化 如 果 和 健康 整合 就 会 关系 到 每 一 个 人 的 生活 、 健 康 ， 我 们 
可 以 去 展望 ， 数 据 是 “新 的 石油 "， 我 们 怎么 找到 这 个 能 源 和 挖掘 它 ， 这 是 非常 值得 研 
究 的 。 
专家 提醒 
笔者 认为 ， 大 数据 趋势 下 的 大 服务 时 代 ， 用 户 与 厂商 都 需要 拥有 主动 意识 ， 以 最 大 化 控 
气 数 据 价值 为 目标 ， 不 能 坐等 应 用 需求 。 


8.2.8 【案例 】 中 南大 学 启动 临床 大 数据 系统 


2014 年 1 月 14 日 , 中 南大 学 宣布 该 校 " 湘 雅 临床 大 数据 系统 建设 项 目 "正式 启动 ， 
首 批 共 101 个 项 目 入 选 ， 覆 盖 40 余 个 临床 学 科 。 据 悉 ， 开 展 大 数据 在 临床 医学 领域 大 
范围 、 系 统 性 的 探索 和 应 用 ， 这 在 国内 高 校 中 尚 属 首次 。 

中 南大 学 所 属 的 湘 雅 医院 、 湘 雅 第 二 附属 医院 、 湘 雅 第 三 附属 医院 、 湘 雅 口 腔 医 院 
和 湘 雅 医学 院 肿 瘤 医 院 每 年 门诊 人 次 过 千 万 ， 每 年 住院 人 次 超过 35 万 ， 手 术 人 次 每 年 
至 少 是 20 万 人 次 以 上 ， 医 疗 体 量 极为 庞大 ， 可 产生 海量 的 多 媒体 临床 数据 。 如 将 其 运 
用 于 临床 科研 和 转化 医学 研究 ， 进 而 带动 基础 医学 发 展 ， 将 有 助 于 产生 更 多 有 价值 的 
成 果 。 

中 南大 学 将 分 5 年 连续 投入 1 亿 元 人 民 币 ,资助 该 校 所 有 临床 专科 建设 其 大 数据 系 
统 ， 并 为 每 位 受 助 医生 配备 一 名 软件 专业 研究 生 ， 协 助 开展 数据 采集 ， 以 建立 起 从 病人 
踏 入 医院 门槛 开始 的 一 整套 网 络 化 电子 病历 系统 。 

临床 大 数据 系统 的 数据 采集 主要 包括 以 下 两 方面 的 内 容 : 

( 1) 基本 信息 。 包 括 患者 年 龄 、 民 族 、 职 业 、 工 作 等 基本 信息 ; 婚姻 、 月 经 及 生 
育 情 况 ， 家庭 健康 及 疾病 情况 ; 生活 、 卫 生 情 况 ， 不良 嗜好 等 信息 。 

( 2 ) 病历 信息 。 包 括 患 者 的 主要 症状 、 体 征 及 疾病 发 生 时 间 等 信息 ;疾病 发 生 、 
发 展 及 变化 过 程 和 诊疗 信息 ;患者 既往 的 健康 及 疾病 信息 ; 疾病 诊断 、 个 性 化 内 科 治疗 
和 手术 治疗 等 ; 治疗 效果 和 药物 反应 等 情况 ; 疾病 发 展 或 痊愈 情况 ; 患者 随访 跟踪 情况 ; 
患者 生物 标本 储存 及 相关 信息 等 。 
同时 ， 笔 者 还 在 现场 看 到 ， 医 生 只 需 在 手机 上 登录 采集 系统 ， 点 击 体温 、 脉 搏 、 血 
压 等 按钮 ， 便 可 指挥 与 一 位 被 测 者 相连 的 采集 设备 开始 工作 ， 并 在 手机 上 实时 读 到 动态 
测量 值 。 采 集 完成 后 ， 检 测 数据 通过 WiFi 网 络 被 发 送 至 后 台 的 大 数据 中 心 储存 。 如 有 
其 他 人 需 调 阅 该 数据 ， 只 需 从 另 一 台 手机 登入 推送 系统 ， 便 可 收 到 大 数据 中 心 实时 发 送 
过 来 的 完整 记录 。 

未 来 , 中 南大 学 还 将 通过 临床 医学 与 信息 技术 的 深度 融合 , 深度 挖掘 和 分 析 大 数据 ， 


DB 


将 建立 国际 先进 和 国内 领先 的 医疗 相关 数据 运营 模式 ， 促 进 智慧 医疗 、 个 体 化 医疗 、 医 
院 精细 化 管理 、 临 床 科 研 、 转 化 医学 和 基础 医学 的 发 展 ， 项 目 可 以 为 卫生 行政 部 门 提供 
决策 依据 。 

【 案例 解析 】]， 在 本 案例 中 ， 临 床 大 数据 系统 的 建立 对 诊疗 模式 变革 意义 重大 。 在 
血管 外 科 手 术 日 益 精细 和 复杂 并 趋向 个 性 化 的 今天 ， 临 床 大 数据 系统 不 仅 有 助 于 医生 提 
高 诊疗 和 科研 水 平 ， 对 病人 了 解 自身 详细 病史 也 极为 有 利 ， 其 必 将 对 病因 诊断 、 用 药 、 
手术 、 预 后 等 产生 积极 而 深刻 的 影响 。 
国民 健康 和 医药 卫生 事业 的 发 展 是 构建 和 谐 社 会 的 重要 因素 。 国 际 上 ， 有 些 大 学 和 
科研 机 构 已 经 开始 针对 某 个 或 少数 的 疾病 进行 有 关 临 床 大 数据 的 研究 ， 如 美国 匹兹堡 医 
学 中 心 设立 了 乳腺 癌 临 床 大 数据 库 。 但 迄今 为 止 ， 国 内 还 没有 开展 大 数据 在 临床 医学 领 
域 大 范围 、 系 统 性 的 探索 和 应 用 ， 希 望 此 次 中 南大 学 可 以 带 来 一 个 好 的 开端 。 
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学 前 提示 

巧 妇 难为 无 米 之 炊 ， 大 数据 的 关键 在 于 谁 先 拥有 数据 。 互 联网 提供 了 数据 来 源 ， 数 
据 分 析 能 够 针对 每 一 位 用 户 的 信息 做 精准 匹配 。 面 对 互联 网 的 海量 信息 ,数据 的 作用 将 
远 远 超出 以 往 。 可 以 说 ， 互 联网 推动 了 大 数据 由 后 台 走向 前 台 。 


要 点 展示 
< 互联 网 大 数据 解决 方案 
< ”互联 网 大 数据 应 用 案例 
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9.1 互联 网 大 数据 解决 方案 


网 络 社交 过 程 中 ， 每 天 都 会 产生 大 量 的 数据 ， 但 是 它们 并 不 像 我 们 想象 中 的 那样 是 
冷冰冰 的 、 枯 燥 的 数据 ， 而 是 更 加 活生生 的 、 有 趣 的 数据 。 这 些 数 据 不 同 于 以 往 单纯 的 
数字 ， 它 们 声色 结合 、 图 文 并 茂 。 

全 球 畅 销 书 《社会 消费 网 络 营销 》 作 者 拉 里 。 韦伯 指出 :“ 所 谓 大 数据 ,包括 企业 信 
息 化 的 用 户 交 易 、 社 会 化 媒体 中 用 户 的 行为 、 关 系 以 及 无 线 互 联网 中 的 地 理 位 置 数据 。 
大 数据 捕捉 到 了 社交 网 络 中 “人 ”的 踪迹 ， 而 智能 广告 则 是 利用 数据 追踪 、 研 究 、 理 解 
“人 "， 从 而 选择 “对 的 人 ”与 “对 的 时 机 "。 


9.1.1 传统 互联 网 大 数据 解决 方案 


互联 网 ( Internetwork，Internet )， 始 于 1969 年 的 美国 ， 又 称 因特网 ， 是 全 球 性 的 
网 络 ， 是 一 种 公用 信息 的 载体 ， 是 大 众 传媒 的 一 种 。 互 联网 具有 快捷 性 、 普 及 性 ， 是 现 
今 最 流行 、 最 受 欢 迎 的 传媒 之 一 。 互 联网 这 种 大 众 传媒 技术 ， 比 以 往 的 任何 一 种 通信 媒 
体 都 要 快 。 互 联网 行业 是 “人 ”的 网 络 消费 ， 市场 大 是 行业 发 展 最 重要 的 因素 ， 腾 讯 等 
一 批 内 地 互联 网 企业 的 发 展 都 受 惠 于 此 。 

1 传统 互联 网 的 盈利 模式 

目前 , 传统 的 行业 门户 网 站 的 盈利 模式 主要 由 4 大 基点 作为 支撑 , 分 别 是 广告 盈利 、 
会 员 盈 利 、 活 动 盈利 以 及 商务 盈利 ， 如 表 9-1 所 示 。 此 外 ,笔者 还 注意 到 不 少 门户 网 站 ， 
由 于 不 满足 于 原 有 既定 的 盈利 模式 ， 正 在 努力 谋求 新 的 利润 基点 ， 其 中 电子 商务 盈利 是 
很 重要 的 一 个 组 成 部 分 。 


表 9-1 传统 互联 网 企业 的 盈利 模式 
盈利 模式 主要 特点 


凭借 广告 谋求 门户 网 站 和 盈利， 几乎 是 所 有 门 
户 网 站 鼻 利 模式 的 首要 选择 


通过 吸纳 会 员 ， 收 取 会 员 费 ， 从 而 使 得 网 站 
会 员 盔 利 “| 产生 利润 ， 是 目前 已 经 被 证 明 的 比较 切实 可 
行 的 途径 ， 如 栖息 谷 、 世 纪 佳缘 、 嫁 我 网 等 
通过 策划 活动 扩张 网 站 的 影响 力 与 知名 度 ， 
活动 盔 利 “| 同时 谋求 更 强 的 便利 点 ， 是 所 有 门户 网 站 运 
营 的 必由之路 

将 门户 网 站 与 电子 商务 进行 有 机 结合 ， 是 目 
前 整个 行业 的 新 动向 


面临 问题 
依靠 广告 产生 大 规模 的 网 站 芥 利 ， 
难度 是 很 大 的 , 只 有 极 少 数 业内 特 
别 出 色 的 门户 网 站 可 以 做 到 


需要 网 站 本 身 在 业内 有 一 定 的 影 
响 力 ， 与 网 站 广告 如 出 一 斩 


需要 线 上 与 线 下 的 双方 互动 ， 规 
模 和 成 本 难以 控制 


商务 一 利 数据 量 较 大 ， 难 以 管理 


2. 传统 互联 网 如 何 利用 大 数据 


虽然 大 数据 目前 在 国内 还 处 于 初级 阶段 ， 但 其 商业 价值 已 经 显现 出 来 。 手 中 握 有 数 
据 的 公司 站 在 “ 金 矿 ” 上 ， 基 于 数据 交易 即 可 产生 很 好 的 效益 ;基于 数据 挖掘 会 有 很 多 
商业 模式 诞生 ， 例 如 帮 企 业 做 内 部 数据 挖掘 ， 或 侧重 优化 ， 帮 企业 更 精准 地 找到 用 户 ， 


降低 营销 成 本 ， 提 高 企业 销售 率 ， 增 加 利润 等 。 


那么 ， 传 统 互联 网 企业 该 如 何 利用 手中 的 “ 金 矿 ” 呢 ? 笔者 认为 可 以 从 网 络 广告 、 


数据 挖掘 、 数 据 分 析 以 及 实施 决策 4 个 方面 入 手 ， 如 图 9-1 所 示 


网 络 广告 : 大 数据 的 价值 在 于 为 广告 
主 和 代理 公司 更 高 效 、 更 准确 地 锁定 
目标 受众 打下 了 坚实 的 基础 。 


数据 挖掘: 互联 网 企业 对 
海量 数据 的 深入 挖掘 , 有 
助 于 加 深 其 对 于 用 户 行 
为 、 爱 好 等 方面 的 了 解 
从 而 可 为 用 户 打造 个 性 
化 的 服务 , 并 针对 产品 及 
服务 进行 优化 


实施 决策 ， 实 现 对 海量 数据 的 实时 
测 ， 并 依据 监测 结果 进行 实时 决策 。 


图 9-1 传统 互联 网 企业 掘 金 大 数 据 的 方法 


大 数据 将 成 为 互联 网 时 代 的 “发 动机 "， 互 联网 不 再 只 是 媒体 ， 更 是 用 户 不 断 转化 
的 平台 ， 而 数据 在 营销 全 程 中 扮演 的 角色 也 必然 要 由 参考 工具 转向 驱动 发 动机 。 数 据 驱 
动 的 精准 营销 引擎 ， 将 颠覆 传统 的 营销 决策 模式 及 营销 执行 过 程 ， 给 网 络 营销 行业 乃至 


互联 网 及 传统 行业 带 来 革命 性 的 冲击 。 
专家 提醒 


以 阿里 巴巴 为 例 ，2013 年 阿里 巴巴 “ 双 十 一 ”的 交易 额 达到 350 亿美 元 ， 超 过 内 地 日 
均 零 售 总 额 一 半 。 如 此 大 的 数据 量 和 集中 化 数据 处 理 , 背后 需要 的 是 强 有 力 的 网 络 支撑 平台 。 
阿里 巴巴 搭建 的 先进 可 靠 的 数据 中 心 ， 为 “ 双 十 一 ” 突 增 的 数据 量 ， 提 供 了 可 靠 的 基础 设施 
保障 。 不 仅 是 阿里 巴巴 ， 京 东 商城 为 了 更 好 地 应 对 互联 网 化 ， 提 升 竞争 力 ， 提 出 了 “技术 驱 
动 ”的 口号 ， 其 技术 的 核心 和 内 涵 就 是 云 计算 和 大 数据 ， 以 利用 大 数据 和 云 计 算 驱 动 京 东 在 


自 营 B2C、 开 放 业 务 和 金融 业务 的 发 展 。 


o 


数据 分 析 : 互联 网 
企业 通过 对 大 量 
数据 的 分 析 研究 ， 
可 以 实现 对 市 场 
新 需求 的 及 时 把 
握 ， 带 来 产品 、 服 
务 乃至 商业 模式 
的 创新 。 
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9.1.2 ”移动 互联 网 大 数据 解决 方案 


. 请 距 才 


移动 互联 网 ， 就 是 将 移动 通信 和 互联 网 二 者 结合 起 来 ， 成 为 一 体 。 移 动 通信 和 互联 
网 成 为 当今 世界 发 展 最 快 、 市 场 潜力 最 大 、 前 景 最 诱 人 的 两 大 业务 ， 它 们 的 增长 速度 都 
是 任何 预测 家 未 曾 预料 到 的 ， 所 以 可 以 预见 移动 互联 网 将 会 创造 经 济 神话 。 

如 今 随 着 智能 手机 时 代 的 来 临 ， 移 动 互 联网 行业 也 在 迅速 发 展 。 最 近 有 消息 表示 ， 
2013 年 全 球 的 移动 互联 网 用 户 达 24 亿 。2006 一 2015 年 中 国 移动 互联 网 市 场 规模 如 
图 9-2 所 示 。 另 外 ， 我 国 移动 互联 网 用 户 还 在 不 断 地 向 传统 互联 网 和 手机 用 户 渗透 ， 如 
图 9-3 所 示 。 
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9-3 ”移动 互联 网 将 继续 向 5 亿 互 联网 及 手机 用 户 扩散 


移动 互联 网 正 逐 渐 渗透 到 人 们 生活 、 工 作 的 各 个 领域 , 短信 、 铃 声 下 载 、 移 动 音乐 、 
手机 游戏 、 视 频 应 用 、 手 机 支付 、 位 置 服务 等 丰富 多 彩 的 移动 互联 网 应 用 迅猛 发 展 ， 正 
在 改变 信息 时 代 的 社会 生活 。 

我 们 尚 无 法 确定 万 物 是 否 皆 数据 ， 但 是 ， 在 移动 互联 网 时 代 ， 人 类 至 少 已 经 推 开 了 
这 样 一 扇 大 门 : 通过 对 海量 大 数据 的 高 效 分 析 获 得 商业 以 及 社会 价值 。 大 数据 为 移动 互 
联网 带 来 了 新 的 价值 ， 也 为 迈 向 物 联网 商定 了 基础 。 

移动 互联 网 成 为 大 数据 非常 重要 的 来 源 ， 很 多 公司 在 移动 互联 网 上 面 的 产品 ， 尤 其 
是 很 多 互联 网 公司 ， 其 产品 数量 都 超过 一 半 。 例 如 ， 以 微 信 、 手 机 QQ 为 代表 的 即时 通 
信 类 占 到 移动 互联 网 总 有 效 浏览 时 间 的 18%， 浏 览 器 为 12%， 在 线 视频 为 超过 10%， 
游戏 为 11.65%。 这 些 都 是 移动 互联 网 快速 被 推广 使 用 下 形成 的 这 样 一 些 用 户 的 应 用 平 
台 ， 但 这 些 用 户 应 用 平台 也 都 是 收集 用 户 大 数据 新 的 来 源 。 

在 移动 互联 网 的 多 App 时 代 ， 大 数据 的 “入 口 ” 概 念 是 模糊 的 。 每 个 用 户 都 有 其 常 
用 的 若干 个 App， 并 不 断 下 载 新 的 App。 在 这 样 的 情况 下 ， 谁 控制 了 强大 的 后 台 ， 谁 就 
能 拥有 强大 的 数据 分 析 能 力 ， 从 而 推送 或 者 显示 精准 信息 。 另 外 ， 手 机 的 私人 性 和 唯一 
性 比 电脑 要 更 强 ， 如 果 用 户 在 多 个 App 的 行为 能 在 后 人 台 被 统一 进行 分 析 ， 自 然 可 以 更 好 
地 抽象 出 用 户 的 特征 和 行为 。 

例如 ， 你 在 京东 商城 或 者 亚马逊 订 了 一 件 商品 ， 那 么 机 器 就 会 将 你 的 ID 号 码 、 送 
货 地 址 、 手 机 、 电 话 、 电 子 邮件 以 及 收 货 时 间 等 全 部 记录 下 来 。 如 果 你 提交 了 物品 评论 ， 
或 者 和 好 友 在 微 博 上 进行 了 分 享 ， 同 样 也 会 被 记录 下 来 。 

洞察 这 一 切 ， 就 意味 着 梦 窜 以 求 的 商机 。 移 动 互联 网 与 社交 网 络 的 兴起 将 大 数据 带 
入 新 的 征程 ， 互 联网 营销 将 在 行为 分 析 的 基础 上 向 个 性 化 时 代 过 渡 。 创 业 公 司 用 “大 数 
据 ” 告 诉 广告 商 什么 是 正确 的 时 间 ， 谁 是 正确 的 用 户 ， 什 么 是 应 该 发 表 的 正确 内 容 等 ， 
这 正好 切中 了 广告 商 的 需求 。 


9.2 互联 网 大 数据 应 用 案 倒 


互联 网 是 个 变幻 莫 测 的 时 代 ， 抓 住 机 遇 才 是 王道 ， 大 数据 的 兴起 让 互联 网 企业 找到 
了 新 的 商机 ， 将 网 站 运营 带 入 了 精准 营销 时 代 。 本 节 主 要 介绍 互联 网 行业 大 数据 的 应 用 
案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


9.2.1 【案例 】 大 数据 与 互联 网 助力 竞选 总 统 


奥巴马 胜 选 的 原因 不 在 于 经 济 、 外 交 政 策 或 是 妇女 问题 ， 而 是 赢 在 大 数据 。 奥 巴 马 
借助 超 强 的 “大 数据 ”能 力 成 功 连 任 , 其 背后 几 十 人 的 数据 分 析 与 挖掘 团队 也 浮 出 水 面 。 
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奥巴马 的 总 统 竞选 运动 也 通过 使 用 社交 网 络 的 各 种 数据 功能 完成 了 竞选 ， 他 们 不 仅 
通过 社交 网 络 寻 找 支持 者 ， 而 且 还 通过 社交 网 络 召 集 了 一 批 志愿 军 。 

早 在 2006 年 ， Facebook 就 帮助 总 统 候选 人 建立 了 个 人 主页 ， 以 便 他 们 进行 形象 推 
广 。2006 年 9 月 ，Facebook 全 面 开 放 ， 用 户 数量 爆炸 式 增长 ， 在 年 底 达 到 1200 万 ， 
这 一 过 程 恰 好 有 利 地 推 升 了 奥巴马 的 知名 度 。 此 后 ， 奥 巴 马 掀起 了 一 系列 的 网 络 活动 ， 
在 Facebook、MySpace 等 社交 网 站 上 发 表 公开 演讲 、 推 广 施政 理念 ， 从 而 赢得 大 量 网 
民 支 持 ， 募 集 到 5 亿 多 美元 的 竞选 经 费 。 

奥巴马 的 数据 分 析 团队 建立 了 4 条 投票 数据 流 ， 以 了 解 关 键 州 选民 的 详细 情况 。 
仅 在 俄 玄 俄 州 ,数据 分 析 团 队 就 获得 了 约 2.9 万 人 的 投票 倾向 数据 。 这 是 一 个 包含 1% 
选民 的 巨大 样本 ， 这 使 他 们 可 以 准确 了 解 每 一 类 人 群 和 每 一 个 地 区 选民 在 任何 时 刻 的 
态度 。 

2008 年 , 奥巴马 赢 在 了 互联 网 , 当选 为 美国 总 统 , 被 誉 为 首位 “网 络 总 统 "。 而 2012 
年 ， 奥巴马 又 赢 在 了 大 数据 分 析 。 如 图 9-4 所 示 ， 美 国 总 统 候选 人 米 特 . 罗 姆 尼 与 巴 拉 
克 ， 奥巴马 展开 第 二 次 总 统 竞选 辩论 。 


图 9-4 米 特 。 罗 姆 尼 ( 左 ) 与 巴 拉 克 * 奥巴马 ( 右 ) 展开 总 统 竞选 辩论 


此 次 总 统 竞 选 ， 奥 巴 马 的 数据 分 析 团 队 更 动用 了 5 倍 于 上 届 的 人 员 规 模 ， 且 进行 了 
更 大 规模 与 深入 的 数据 挖掘 。 这 在 帮助 奥巴马 获取 有 效 选 民 、 投 放 广 告 、 募 集资 金 方面 
起 到 了 不 可 忽视 的 作用 。 数 据 分 析 团队 分 析 来 自 各 个 途径 的 非 结 构 化 数据 ， 包 括 网 站 、 
手机 程序 、 志 愿 者 和 来 自传 统 收集 渠道 的 数据 ， 他 们 能 更 全 面 地 了 解 线 上 和 线 下 的 选民 
情况 ， 准 确 地 揣摩 选民 对 各 种 话题 的 态度 。 

另外 ， 掌 握 了 数 以 TB 的 数据 后 ， 数 据 分 析 团 队 就 能 为 选民 建立 更 加 准确 的 模型 和 
计划 。 这 意味 着 竞选 活动 将 更 有 针对 性 ， 更 多 的 网 站 注册 人 数 、 更 多 的 电子 邮件 地 址 、 
更 多 的 选票 和 献金 。 

数据 分 析 团 队 不 断 试图 挖掘 选民 的 社交 媒体 信息 ， 甚 至 还 准备 通过 手机 移动 程序 来 
改变 传统 的 投票 方式 。 通 过 定制 手机 程序 的 下 载 获取 抽样 用 户 ， 正 在 成 为 移动 时 代 民 意 


测试 员 的 新 工作 方式 。 随 着 数据 科学 家 深入 研究 如 何 利 用 社交 媒体 数据 提高 预测 准确 
性 ， 在 线 民 意 分 析 的 准确 性 无 疑 正 随 之 提高 ， 而 其 一 旦 与 手机 移动 程序 相 结合 ， 将 对 政 
治 产生 更 为 深刻 的 影响 一 一 候选 人 能 对 民意 波动 做 出 实时 反应 。 

最 终 ,“ 黑 人 平民 ”战胜 了 实力 雄厚 的 对 手 ， 成 为 美国 历史 上 第 一 位 黑人 总 统 ， 之 
后 ， 在 第 二 次 的 选举 中 更 获得 连任 。 此 次 选举 被 认为 是 美国 民主 的 巨大 进步 ， 而 互联 网 
则 提供 了 前 所 未 有 的 实施 手段 ， 其 中 尤 以 Facebook 为 代表 的 社交 网 站 最 为 突出 ， 以 至 
于 有 人 将 之 戏称 为 “Facebook 之 选 "。 

【 案例 解析 】}， 从 本 案例 可 以 看 出 ， 当 “大 数据 ” 遇 到 “小 数据 "， 大 数据 每 次 都 会 
赢 。 数 据 驱动 的 决策 对 奥巴马 一 一 这 位 第 44 位 总 统 的 续 任 起 到 了 巨大 作用 , 这 也 是 研究 
2012 选举 的 一 个 关键 元 素 。 它 也 是 一 个 信号 一 一 表明 华盛顿 那些 基于 直觉 与 经 验 决策 的 
竞选 人 士 的 优势 在 急剧 下 降 ， 取 而 代 之 的 是 数据 分 析 专 家 与 电脑 程序 员 的 工作 ， 他 们 可 
以 在 大 数据 中 获取 洞察 力 。 


9.2.2 【案例 】 Acxiom 用 数据 洞悉 你 的 心理 


现在 越 来 越 多 的 互联 网 公司 在 数据 “矿山 ”中 挖掘 金 矿 ，Acxiom 就 是 这 群 气 金 者 
中 的 佼佼 者 。Acxiom 的 主要 业务 是 “基于 数据 的 市 场 营销 "， 帮 助 企业 精准 定位 它 的 潜 
在 客户 ， 将 服务 和 产品 卖 给 有 需求 的 客户 。 

Acxiom 就 是 这 样 一 个 鲜 为 人 知 而 又 举足轻重 的 存在 ， 它 知道 你 是 谁 ， 它 知道 你 住 
哪 ， 也 知道 你 喜欢 什么 ， 讨 厌 什 么 ， 事实 上 ， 在 业内 人 口中 ， 它 有 一 个 更 为 通俗 易 懂 的 
名 字 一 一 “数据 精炼 厂 "。 从 种 族 、 性 别 、 体 重 、 身 高 、 婚 姻 状 况 、 文 化 程度 、 政 治 倾向 、 
消费 习惯 、 家 政 开支 到 度假 偏好 ， 几 乎 每 个 美国 成 年 人 都 能 在 Acxiom 的 数据 全 息 图 上 
找到 自己 的 坐标 。 

Acxiom 可 以 利用 一 些 信息 来 推测 用 户 的 生活 方式 、 兴 趣 爱 好 和 日 常 活动 ， 例 如 ， 
你 的 汽车 品牌 和 使 用 时 间 、 你 的 收入 和 投资 状况 、 你 的 年 龄 、 受 教育 程度 以 及 邮政 编码 。 
除 此 之 外 ， 你 最 近 离 过 婚 吗 ， 或 者 你 刚刚 变 成 了 一 名 空 巢 老人 ? 这 些 “ 人 生 大 事 ” 更 可 
以 将 一 个 人 从 一 个 消费 阶层 转移 到 另 一 个 ， 而 这 正 是 Acxiom 及 其 广告 客户 的 关键 兴 
所 在 。Acxiom 称 其 可 以 通过 分 析 数 据 来 预测 3000 种 不 同 的 行为 及 心理 倾向 ， 比 如 说 一 
个 人 会 在 某 两 个 品牌 间 做 出 怎样 的 选择 。 

Acxiom 的 大 数据 战略 主要 有 4 个 方面 ， 如 表 9-2 所 示 。 


表 9-2 Acxiom 的 大 数据 战略 
在 现 有 的 客户 中 找到 收入 增长 的 机 会 ， 识 别 并 找到 潜在 的 有 价值 客户 


营销 策略 与 | 发 展 洞察 力 ， 从 而 更 有 针对 性 地 分 配 营 销 费用 


分 析 | 发现 那些 通过 优化 人 员 、 流程 、 技 术 来 降低 成 本 的 机 会 


通过 严格 执行 隐私 政策 来 降低 风险 ， 保 护 客 户 免 受 欺诈 
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续 表 
任意 渠道 的 客户 互动 
扩展 和 加 强 客户 品牌 意识 的 创意 营销 活动 


[图 。 地 并 这 音 销 | 通过 投资 回报 率 指标 量化 营销 效果 

上 符合 现 有 最 佳 客户 特征 的 新 客户 

量 数据 安全 港 : Acxiom 的 隐私 保护 环境 使 广告 商 以 及 合作 伙伴 能 够 通过 多 媒体 渠 
到 道 准 确 地 识别 和 屏 项 敏感 信息 

清 

准 


精准 定向 渠道 :通过 与 其 他 合作 伙伴 的 合作 ，Acxiom 可 以 实现 跨 渠 道 传播 高 度 
协调 一 致 的 信息 一 一 不 论 是 通过 网 络 、 手 机 还 是 电视 等 


精准 定向 “| 广告 投放 环境 : 帮助 企业 创造 成 熟 的 营销 活动 环境 , 在 这 样 的 环境 中 ,企业 的 客 
营销 户 及 潜在 客户 与 企业 选择 的 渠道 及 合作 伙伴 已 经 经 过 预 匹配 ,这 有 助 于 企业 进行 
有 效 的 营销 活动 ， 增 加 营销 信息 的 覆盖 范围 
更 准确 的 衡量 : 在 客户 定义 细 分 层面 上 的 所 有 响应 渠道 上 , 分 析 企 业 的 客户 及 潜 
在 客户 对 企业 的 营销 活动 的 回应 ,通过 在 各 种 渠道 跟踪 销售 转化 数据 来 进一步 优 
化 企业 的 营销 活动 ， 帮 助 企业 了 解 多 种 营销 渠道 的 交叉 影响 

建立 数据 库 : Acxiom 的 系统 由 经 过 市 场 检验 过 的 标准 组 件 构成 。 Acxiom 会 对 这 
些 组 件 和 系统 进行 个 性 化 配置 ， 满 足 企业 的 需求 
数据 管理 平台 : 使 企业 的 营销 活动 覆盖 更 多 的 目标 客户 ,提高 企业 的 投资 回报 率 
营销 活动 管理 : 营销 活动 管理 让 营销 者 能 够 更 精确 、 更 有 针对 性 地 细 分 受众 群体 ， 
以 实现 更 个 性 化 的 互动 
IntegraLOOP 数据 库 营 销 解 决 方案 : 管理 者 希望 所 花费 的 营销 投入 能 带 来 更 大 的 
市 场 回报 。 选择 何 种 平台 来 管理 数据 库 至 关 重 要 , 明智 正确 的 选择 能 帮助 企业 管 
理 者 更 高 效 地 进行 客户 数据 管理 、 更 便捷 地 进行 操作 、 更 全 面 地 获得 客户 分 析 与 
决策 支持 。IntegraLOOP 数据 库 营 销 服务 解决 方案 正 是 基于 这 些 标准 模块 ,再 根据 
企业 特有 的 业务 需求 加 以 客户 化 定制 ， 包 括 业 务 规则 定制 、 报 表 定 制 、 业 务 系统 
集成 、 网 站 数据 集成 、 客 户 服务 系统 集成 等 ， 为 企业 带 来 完美 的 数据 库 营销 系统 
数据 整合 和 质量 : 通过 提高 企业 的 数据 库 的 搜索 和 识别 功能 ,优化 企业 的 数据 库 ; 
还 可 以 通过 更 精准 的 身份 识别 方案 进行 进一步 优化 
数据 优化 : 使 用 InfoBase* 立 即 了 解 特定 客户 的 需求 :使 用 Personicx” 进 行 数据 
优化 并 在 各 个 市 场 上 寻找 客户 
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目前 ，Acxiom 正 从 微软 、 谷 歌 、 亚 马 逊 、MySpace 等 IT 业 巨 头 “ 控 角 "， 旨 在 打 
造 一 个 更 强大 、 更 多 元 的 “消费 行为 预测 复式 平台 "， 通 过 对 数据 库 的 深耕 细作 ， 巩 固 
其 在 投资 者 和 客户 当中 的 地 位 。Acxiom 的 最 大 优势 在 于 其 过 去 40 年 中 对 “离线 数据 ” 
的 搜集 和 积累 ， 这 亦 是 它 能 够 雄 距 一 方 的 秘诀 所 在 。 

【 案例 解析 ])， 在 本 案例 中 ，Acxiom 公司 的 解决 方案 有 助 于 简化 数据 分 析 和 管理 ， 


并 推动 企业 的 营销 计划 。 

但 是 ， 无 论 手 法 有 多 巧妙 ， 这 一 切 都 是 在 客户 本 人 毫 不 知情 的 前 提 下 发 生 的 。 究 其 
本 质 ， 这 是 “数据 驱动 时 代 ” 的 不 可 承受 之 重 。 我 们 的 生活 “被 挖掘 、 被 提炼 ， 然 后 被 
卖 给 出 价 最 高 的 竞拍 者 "， 执 伏 在 暗 处 的 数据 巨 兽 在 绕 过 当事人 的 情况 下 ， 与 商家 达成 
了 某 种 “幕后 交易 "。 

也 许 “ 大 数据 ”时 代 的 到 来 ， 会 让 每 个 人 都 陷入 这 样 的 困境 ， 你 的 一 举 一 动 都 被 记 
录 成 数据 ， 变 为 有 价值 的 信息 ， 但 你 又 不 可 能 离开 这 个 世界 ， 也 难以 离开 媒介 。 


9.2.3 【过 例 】 大 数据 为 个 性 化 用 户 体验 撑腰 


根据 2012 年 的 相关 统计 显示 ， 在 线 视频 已 经 超越 社区 交友 和 搜索 服务 跃升 为 互联 
网 第 一 大 应 用 。PPTV 聚 力 目前 全 平台 月 度 活跃 用 户 达 3.4 亿 , 每 天 的 活跃 用 户 超过 5000 
万 。 目 前 ，PPTV 聚 力 每 天 会 产生 数 10TB 包含 用 户 行为 数据 、 访 问 体验 数据 等 在 内 的 
业务 数据 ， 针 对 在 线 视频 业务 运营 的 实际 需要 ， 这 些 大 数据 每 天 会 被 采集 、 汇 总 到 一 个 
分 布 式 的 技术 平台 上 ， 再 被 应 用 到 不 同 的 业务 领域 之 中 。 

对 此 ，PPTV 聚 力 正 努 力 超越 数据 解析 ， 利 用 大 数据 与 分 析 技 术 ， 改 变 思维 定式 ， 
为 用 户 提供 真正 个 性 化 的 服务 体验 。 细 心 的 老 用 户 会 发 现 ， 登 录 后 均 可 看 到 “ 猜 你 喜欢 ” 
栏目 ， 在 这 里 ， 超 过 35% 的 用 户 都 能 找到 自己 喜欢 的 视频 ， 使 你 不 会 在 浩瀚 的 视频 节目 
里 不 知 所 措 ， 而 且 缩 短 了 视频 搜索 浏览 时 间 ， 大 幅 提 升 了 用 户 体验 。 

事实 上 ， 对 于 PPTV 聚 力 带 来 的 个 性 化 视频 推荐 用 户 体验 ， 大 数据 是 功 不 可 没 的 。 
目前 ，PPTV 聚 力 已 经 建成 的 数 百 台 服 务 器 规模 的 Hadoop 集群 是 其 大 数据 技术 平台 的 
核心 。 在 其 上 运行 着 Hive 开源 数据 仓库 ， 基 于 Storm 的 分 布 式 实时 数据 处 理 框架 也 已 
经 开始 部 署 。 

对 PPTV 聚 力 来 说 ， 大 数据 的 来 源 主要 包括 用 户 行为 数据 、 工 程 技术 数据 以 及 后 端 
的 业务 运营 数据 ， 如 图 9-5 所 示 。 


图 9-5 PPTYV 聚 力 大 数据 的 来 源 
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这 些 数据 组 成 了 PPTV 聚 力 丰富 的 大 数据 来 源 ， 而 大 数据 的 分 析 结果 能 直接 应 用 于 
商业 运营 的 调 优 。 例 如 ， 我 们 购买 了 一 部 影视 剧 后 ， 可 以 精确 、 实 时 地 了 解 它 在 不 同 地 
区 和 时 间 段 被 观看 的 次 数 ， 以 此 优化 后 端的 运营 策略 。 另 外 ， 通 过 从 不 同 的 客户 端 所 获 
取 的 访问 连接 数据 ， 我 们 可 以 根据 不 同 地 区 、 不 同时 段 的 网 络 连接 状况 ， 用 最 低 的 成 本 
向 用 户 交付 流畅 的 观看 体验 。 

基于 大 数据 技术 平台 ，PPTV 聚 力 已 经 在 广告 的 定向 投放 、 频 次 控制 等 方面 建立 了 
相对 成 熟 的 策略 和 流程 ， 并 且 注 重 在 广告 精准 投放 的 同时 ， 确 保 用户 的 观看 体验 。 

【 案例 解析 } 在 本 案例 中 ， 通 过 对 大 数据 的 深入 了 解 和 熟练 运用 ，PPTV 聚 力 更 将 
与 我 们 “如 影 随行 "， 打 造 一 幅 智 能 个 性 化 用 户 体验 全 新 蓝图 ， 向 着 更 优越 的 用 户 体验 
境界 进发 。 

笔者 认为 ， 国 内 的 视频 网 站 ， 仍 处 于 飞速 发 展 阶段 ， 可 以 考虑 未 来 自 建 数据 中 心 ， 
提高 数据 处 理 能 力 ， 从 网 站 的 运营 中 发 掘 出 更 多 信息 ， 为 用 户 提供 更 好 的 视频 服务 。 


9.2.4 【案例 】 人 人 游戏 网 用 大 数据 了 解 玩家 


作为 国内 最 大 的 网 页 游戏 和 智能 手机 游戏 的 研发 、 运 营 和 发 行商 之 一 ， 人 人 游戏 的 
大 数据 价值 发 现 从 结构 化 数据 集 起 步 ， 逐 步 向 非 结构 化 数据 集 延 伸 。 成 立 于 2006 年 的 
人 人 游戏 坚持 在 “ 跨 屏 ”技术 创新 领域 的 研发 投入 ， 同 时 也 积极 利用 大 数据 技术 优化 整 
体 业 务 运营 。 

近日 ，IBM 公司 宣布 正式 与 人 人 游戏 在 业务 分 析 领 域 展开 合作 ， 通 过 部 署 全 球 领先 
的 IBM 商业 智能 和 业务 分 析 平 台 , 利用 创新 大 数据 分 析 技术 为 人 人 游戏 业务 运营 、 企 业 
管理 、 企 业 战略 和 企业 文化 注入 全 新 动力 。 

人 人 游戏 通过 运用 IBM 的 大 数据 解决 方案 , 对 企业 内 部 数据 的 深刻 分 析 和 高 价值 运 
用 ， 得 以 在 互联 网 行业 激烈 竞争 中 脱颖而出 ， 在 高 效应 对 多 样 化 客户 需求 ， 提 供 针对 性 
服务 策略 方面 实现 大 步 提升 ， 真 正 实现 了 运营 、 管 理 “ 双 创 新 "。 

人 人 游戏 的 第 一 个 动作 就 是 上 线 “ 词 云 ” 应用。 所谓“ 词 云 '， 就 是 先 对 人 人 游戏 
玩家 的 在 线 聊天 记录 进行 分 词 ， 汇 总 之 后 对 玩家 行为 进行 分 析 和 展现 。 目 前 ,，“ 词 云 " 
已 经 在 人 人 游戏 的 4 款 重点 游戏 中 安家 落户 ， 随 后 有 关 玩 家 情绪 的 分 析 功 能 ( 通过 关键 
词 对 应 玩家 的 情绪 指数 ) 也 将 上 线 。 

例如 ,“ 炸 金 矿 ” 是 人 人 游戏 旗下 “乱世 天 下 ”这 款 游 戏 中 玩家 参与 度 很 高 的 一 个 
玩法 ， 玩 家 需要 邀请 一 定数 量 的 友人 帮忙 炸 矿 来 赢 取 金币 。 但 在 节假日 期 间 ， 这 款 游戏 
的 参与 度 通常 都 会 下 降 。 数 据 分 析 人 员 通 过 “ 词 云 ”应 用 分 析 后 发 现 ， 节 假日 期 间 “ 求 
炸 ” 成 为 玩家 的 聊天 热 词 。 数 据 分 析 人 员 也 因此 得 知 ， 并 不 是 玩家 不 爱 玩 这 个 游戏 ， 而 
是 玩家 在 节假日 邀请 不 到 足够 数量 的 友人 帮忙 炸 矿 。 基 于 这 样 的 分 析 ， 人 人 游戏 可 以 在 
节假日 期 间 对 游戏 规则 进行 调整 。 


D> 


在 2013 年 ， 人 人 游戏 已 经 基本 上 完成 了 基于 IBM Cognos 的 BI 系统 整体 建设 。 同 
时 , 其 基于 Greenplum 社区 版 的 分 布 式 数 据 仓库 也 已 初 具 规模 。 对 人 人 游戏 而 言 ， 这 些 
都 是 获得 360。 用 户 视图 的 必要 工作 ， 而 360。 用户 视图 为 其 业务 运营 和 决策 所 带 来 的 
价值 则 是 实 实在 在 的 。 

该 平台 的 一 大 设计 原则 和 优势 是 将 报表 分 析 平 台 与 游戏 业务 模型 ( Acquisition 
Retention Monetization，ARM ) 紧密 结合 ， 通 过 Cognos ( 如 图 9-6 所 示 ) 强大 的 可 视 
化 报表 和 分 析 功能 ， 以 日 、 周 、 月 的 维度 分 析 基 于 用 户 获 取 、 存 留 和 变现 的 海量 数据 ， 
增进 运营 团队 对 于 用 户 的 了 解 ， 促 进 更 有 效 的 回访 ， 及 时 调整 运营 的 策略 和 推广 重点 。 


图 9-6 Cognos 的 分 析 界 面 


新 的 BI 系统 将 人 人 游戏 的 业务 模型 更 加 清晰 地 呈现 出 来 ， 对 游戏 业务 覆盖 用 户 获 
取 、 客 户 存 留 、 客 户 付费 的 核心 流程 进行 了 优化 ， 能 够 更 准确 地 为 业务 决策 提供 参考 。 
同时 ，BI 系统 上 线 后 ， 企 业 在 开发 和 运 维 方面 的 投入 也 有 所 降低 。 财 报 显示 ，2013 年 
第 一 季度 ， 人 人 在 线 游戏 收入 达 2670 万 美元 , 同比 增长 52.9%, 占 人 人 总 营 收 的 57%。 

【 案例 解析 }， 在 本 案例 中 ,“ 词 云 ” 应 用 的 上 线 是 人 人 游戏 对 大 数据 的 利用 从 结构 
化 数据 集 向 非 结构 化 数据 集 延 展 的 重要 一 步 。 

笔者 觉得 ， 大 数据 分 析 可 能 不 会 直接 为 网 络 游戏 行业 带 来 电 商 网 站 那样 的 可 观 收 
入 ， 但 其 价值 同样 会 体现 在 精准 营销 、 客 户 体验 优化 等 多 个 层面 。 当 然 ， 大 数据 团队 所 
面临 的 最 大 挑战 是 数据 的 整合 ， 把 多 来 源 的 结构 化 、 半 结构 化 和 非 结构 化 数据 整合 在 一 
起 ， 很 多 企业 还 没有 做 到 。 另 外 ， 在 企业 内 部 和 外 部 找到 大 数据 的 消费 者 ， 向 他 们 营销 
大 数据 技术 ， 同 样 是 一 项 艰苦 的 工作 。 
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专家 提醒 
将 全 面 的 大 数据 分 析 用 在 网 络 游戏 中 ， 能够 有 效 提升 玩家 的 留存 率 和 转化 指标 ,并 且 为 
游戏 产品 的 研发 提供 指引 。 另 外 ， 个 性 化 的 精准 营销 同样 与 大 数据 分 析 紧密 相关 ， 像 针对 不 
同性 别 、 不 同年 龄 、 不 同 地 域 人 群 的 广告 精准 投放 ， 背 后 都 要 依靠 基于 大 数据 的 玩家 特征 
分 析 。 


9.2.5 【过 例 】 迅雷 用 大 数据 抓 “ 网 络 票房 ” 


两 如 冯 部 曾 伍 . 测 距 才 


迅雷 看 看 近日 发 布 了 迅雷 看 看 电影 院 ( 付费 频道 ) 用 户 画 像 数据 报告 ， 报 告 中 的 一 
组 突出 数据 是 ，90% 以 上 影视 VIP 用 户 ( 付费 会 员 用 户 ) 为 男性 ， 可 见 男女 用 户 付 费 行 


为 差异 巨大 ， 抓 住 了 男性 用 户 ， 就 抓 住 了 “网 络 票房 "。 
通过 数据 分 析 显 示 ， 影 视 VIP 用 户 的 主要 需求 是 高 清 ( 高 清 /正版 )、 最 新 、 大 片 / 
经 典 ， 其 中 高 清 占 比 最 高 ， 超 过 80%， 如 图 9-7 所 示 。 可 见 ， 高 清 画 质 已 成 为 高 端 视频 


用 户 的 一 大 重要 需求 。 
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图 9-7 迅雷 看 看 影视 VIP 用 户主 要 需求 


2013 年 12 月 20 日 ,迅雷 集团 COO 黄 蕊 首次 代表 集团 对 迅雷 看 看 的 战略 规划 作出 
明确 部 署 。 迅 雷 全 线 产品 矩阵 将 大 幅度 提升 对 迅雷 看 看 的 支持 ， 将 实现 1.5 亿 注 册 用 户 
将 与 迅雷 看 看 的 大 数据 共享 ， 迅 雷 看 看 将 正式 从 流量 平台 向 用 户 平 台 蚁 变 。 

迅雷 的 数据 分 析 模块 目前 有 500 多 台 服 务 器 ，4000 多 个 CPU， 存 储 20PB 以 上 的 
数据 ， 磁 盘 有 3000 多 块 ， 属 于 中 型 数据 平台 的 规模 。 迅 雷 会 把 收集 来 的 数据 做 成 数据 
模型 ， 最 重要 的 数据 模型 是 一 个 用 户 事件 模型 ， 所 有 的 基于 用 户 端的 这 种 行为 数据 ， 都 
可 以 把 它 抽象 成 模型 存 进去 。 例 如 ， 每 个 站 各 的 上 泊 用 户 效 : 每 个 用 户 的 活跃 度 ， 用 户 
的 黏 性 ， 以 及 某 个 产品 的 用 户 的 地 域 分 布 ， 运 营 商 分 布 等 ， 活 跃 用 户 排名 ， 最 热 的 资源 
排名 ， 如 哪些 电影 最 常 被 人 看 ， 二 二 天 4 要 生活 由 出 站 医 点 冰 ， 或 者 某 个 商品 的 销售 
收入 等 。 


另外 ， 迅 雷 还 构建 了 一 个 用 户 的 “染色 库 ”"， 用 于 记录 几 亿 迅雷 用 户 的 特征 、 网 络 
运营 商 类 型 、 兴 趣 类 标签 、 游 戏 类 标签 、 影 视 类 标签 等 。 例 如 ， 游 戏 标签 描述 该 用 户 喜 
欢 什么 类 型 游戏 ， 影 视 类 标签 描述 用 户 喜 欢 什么 类 型 的 影视 。 根 据 这 些 属性 ， 迅 雷 可 以 
更 好 地 为 用 户 服务 。 

除 SO、Android 的 手机 与 平板 电脑 端的 产品 之 外 ， 迅 雷 看 看 发 布 了 电视 端的 APP 
产品 一 一 看 看 TY。 据悉， 迅雷 看 看 与 VIVO、AUDEX 等 硬件 厂商 达成 战略 合作 关系 ， 
力图 在 大 数据 领域 开创 一 片 新 天 地 。 

【 案例 解析 】])， 本 案例 中 的 迅雷 看 看 能 否 借 助 集团 资源 实现 用 户 平台 的 转型 ， 或 将 
影响 2014 年 网 络 视频 行业 格局 。 由 此 可 见 ， 随 着 移动 互联 网 战役 的 拉 开 ， 移 动 端 多 屏 
的 流量 之 争 已 经 剑 拔 移 张 。 

笔者 觉得 ， 其 实用 户 才 是 互联 网 真正 的 价值 所 在 ， 利 用 大 数据 来 挖掘 用 户 属性 和 行 
为 的 视频 互动 营销 ， 才 是 网 络 视 频 最 深刻 最 有 效 的 营销 。 


9.2.6 【案例 】 腾 讯 用 微 信 展 开 大 数据 “首战 ” 


微 信 是 腾讯 目前 最 成 功 的 移动 互联 网 应 用 ， 也 是 互联 网 历史 上 增长 最 快 的 新 软件 。 
如 果 QQ 和 Qzone 是 腾讯 PC 端的 大 数据 开放 平台 , 那么 微 信 将 成 为 腾讯 移动 端的 大 数 
据 开放 平台 。 

就 拿 笔者 自己 来 说 ， 我 会 用 微 信 跟 好 友和 同事 联系 ， 看 下 几 个 群 里 大 家 在 讨论 些 什 
么 ， 再 刷 刷 朋友 圈 看 看 大 家 分 享 了 些 什么 好 东西 ， 每 天 花 在 微 信 上 的 时 间 累 计 起 来 至 少 
超过 两 小 时 以 上 。 可 以 说 这 些 事情 基本 是 目前 每 个 微 信用 户 都 在 做 的 ， 至 多 是 因为 圈子 
或 兴趣 爱好 等 不 同 看 到 的 内 容 不 一 样 ， 但 是 这 些 信息 基 本 上 完整 地 描述 了 我 一 天 的 行 
为 ， 同 时 还 带 着 地 理 位 置 。 

腾讯 拥有 最 多 的 社交 大 数据 , 前 期 的 思路 是 用 数据 分 析 改 善 自 有 产品 , 注重 Qzone、 
微 信 、 电 商 等 产品 的 后 端 数据 打通 。 腾 讯 云 移动 分 析 平 台 已 接 入 了 微 博 、QQ 游戏 、QQ 
互联 、 空 间 、 手 机 QQ 多 个 平台 的 数据 ， 现 在 另外 一 块 相对 封闭 但 是 极 具 价值 的 微 信 数 
据 也 被 打通 了 。 

腾讯 的 大 数据 价值 如 何 释 放 ， 如 何 变现 ? 笔者 认为 ， 最 优 的 途径 是 将 数据 分 析 成 果 
共享 给 开发 者 ， 让 开发 者 二 次 挖掘 ， 腾 讯 则 获得 对 应 的 收益 。 具 体 的 方式 有 很 多 种 ， 例 
如 按照 特权 接口 收费 ， 按 照 接口 调用 次 数 收费 ， 按 照 定制 化 功能 收费 。 被 阿里 巴巴 收购 
的 友 盟 、AWS、 围 绕 微 博 的 一 些 数据 分 析 公 司 做 的 也 是 类 似 的 事情 。 

2013 年 8 月 ， 微 信 公 众 平台 增加 了 一 项 新 功能 一 一 数据 统计 功能 ， 包 括 用 户 分 析 、 
图 文 分 析 、 消 息 分 析 和 开发 支持 4 个 模块 。 

( 1) 用 户 分 析 。 管 理 者 可 以 在 这 个 模块 了 解 到 账号 的 用 户 增长 情况 及 用 户 属性 ， 
如 图 9-8 所 示 。 用 户 增长 关键 指标 包括 新 增 人 数 、 取 消 关注 人 数 、 净 增 人 数 、 累 计 关注 
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人 数 等 ， 以 相应 的 曲线 图 和 数据 表 来 显示 数量 发 展 趋势 。 在 用 户 属性 中 ， 可 以 看 到 用 户 
的 性 别 、 语 言 、 省 份 分 布 数量 以 及 各 自 所 占 的 比例 。 
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图 9-8 用 户 分 析 功能 界面 


(2 ) 图 文 分 析 。 包 括 图 文 群发 和 图 文 统计 两 部 分 。 管 理 者 可 以 在 此 看 到 图 文 消息 
中 的 每 篇 文章 有 多 少 用 户 接收 、 图 文 页 阅读 数量 、 原 文 页 阅读 次 数 以 及 文章 的 分 享 转发 
人 数 和 次 数 等 。 此 外 ， 后 台 也 提供 了 按照 图 文 页 阅读 人 数 、 分 享 转发 人 数 进 行 排序 的 功 
能 ， 这 样 一 来 ， 相 应 的 时 间 段 内 ， 哪 些 文章 最 受 欢 迎 一 目 了 然 。 

( 3 ) 消息 分 析 。 这 里 主要 是 查看 用 户 向 公共 账号 发 送 的 消息 数 统计 ， 由 此 管理 者 
可 了 解读 者 与 账号 的 互动 情况 。 

( 4 ) 开发 支持 。 使 用 开发 模式 的 管理 者 可 以 在 此 查看 接口 调用 的 相关 统计 ， 例 如 
调用 次 数 、 失 败 率 和 平均 耗 时 等 。 

【 案例 解析 】]， 在 本 案例 中 ， 通 过 微 信 公 众 平台 的 数据 统计 功能 ， 可 以 轻松 掌握 公 
共 账 号 的 实际 运营 效果 ， 这 对 公众 账号 管理 者 来 说 无 疑 是 一 个 好 消息 。 

在 这 个 大 数据 爆发 的 时 代 ， 每 个 人 的 行为 规律 都 被 记录 成 数据 ， 对 这 些 数据 都 可 以 
找到 规律 并 做 出 分 析 。 不 可 否认 ， 微 信 通 讯 录 已 经 慢 慢 等 同 于 笔者 的 手机 通讯 录 ， 里 面 
也 不 再 仅仅 是 好 友和 家 人 ， 还 有 同事 、 客 户 等 社会 关系 在 里 面 ， 另 外 还 有 微 信 群 、 公 众 
账号 等 ， 如 何 管 理 、 分 享 或 者 搜索 有 赖 于 开发 者 的 智慧 。 
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学 前 提示 


俗话 说 :“ 他 山 之 石 ， 可 以 攻 玉 。” 大 数据 里 面包 含 了 企业 运营 的 各 种 信息 ， 如 果 能 
对 它们 进行 及 时 有 效 的 整理 和 分 析 ， 就 可 以 很 好 地 帮助 企业 进行 经 营 决策 ， 为 企业 带 来 
巨大 的 增值 效益 。 零 售 企 业 要 学 会 利用 自己 手中 的 海量 数据 ， 推 动 企 业 的 发 展 。 


要 点 展示 
<” 零售 行业 大 数据 解决 方案 
< 零售 行业 大 数据 应 用 案例 
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10.1 雪 售 行业 大 数 棍 解决 方案 


当 你 惊叹 于 淘宝 通过 对 以 往 消 费 的 记录 ， 准 确 推送 你 所 需 的 小 众 商品 的 时 候 ， 恭 喜 
你 已 经 感受 到 大 数据 时 代 的 来 临 。 在 大 数据 时 代 ， 我 们 在 网 络 上 的 任何 一 次 点 击 都 可 以 
被 完整 地 记录 和 保存 ， 而 零售 企业 则 通过 对 这 些 数据 的 高 效 分析 ， 准 确 预 判 我 们 的 消费 
行为 、 消 费心 理 等 ， 并 推送 相应 的 产品 或 服务 。 而 实际 上 ， 目 前 多 数 大 数据 并 未 被 采集 
到 ， 即 使 采集 到 ， 其 价值 的 开发 也 远 远 不 足 。 


10.1.1 大 数据 对 零售 行业 的 影响 


近年 来 ， 互 联网 技术 改变 着 各 行 各 业 ， 零 售 行业 自然 难 逃 厄运 。 随 着 电子 商务 不 断 
发 展 ,消费 者 的 购物 习惯 悄然 生变 。 在 中 国 ， 零 售 商 、 制 造 商 、 个 体 户 等 均 可 在 淘宝 网 、 
京东 商城 这 类 第 三 方 平台 开展 电子 商务 业务 ， 因 此 ， 消 费 者 也 有 了 更 多 选择 和 主动 性 ， 
这 给 传统 零售 产业 带 来 巨大 的 冲击 。 

安吉 尔 知识 网 络 公司 ( Edgell Knowledge Network ) 是 一 家 调研 及 内 容 服务 公司 ， 
其 在 2012 年 5 月 至 6 月 对 北美 零售 经 理 进 行 了 一 项 调查 ， 具 体 如 图 10-1 所 示 。 结 果 显 示 ， 
只 有 17% 的 零售 经 理 不 知道 “大 数据 ”概念 ; 其 余 的 受 访 者 对 “大 数据 ”具有 不 同 程度 的 
熟悉 ， 有 10% 的 人 说 自己 理解 “大 数据 ”的 理念 ， 但 不 确定 此 概念 如 何 对 零售 产生 影响 。 


， 也 理解 
其 对 零售 业 的 意义 
图 理解 此 概念 ， 但 不 清 
楚 其 对 零售 业 的 意义 
口 理解 此 概念 
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10-1 北美 零售 经 理 对 大 数据 的 了 解 程度 


在 大 数据 时 代 ， 智 能 零售 可 以 分 为 四 等 份 ， 分 别 是 客户 数据 资源 、 社 会 数据 资源 、 
市 场 数 据 资源 以 及 供应 数据 资源 。 智 能 零售 能 够 生产 出 源源 不 断 的 数据 ， 创 造 出 数 百 万 
的 交易 以 及 数 以 亿 计 的 交互 。 大 数据 及 分 析 环 境 中 的 投资 收益 将 通过 传统 客户 忠诚 度 、 
收益 增长 、 成 本 削减 以 及 新 业务 模式 而 货币 化 。 


10.1.2 大 数据 对 零售 行业 的 挑战 


随 着 中 国 大 型 连锁 零售 企业 开始 规模 化 经 营 和 跨 区 域 发 展 ,“ 用 IT 去 做 零售 业 ” 已 
经 逐渐 成 为 零售 业 的 重要 经 营 理念 之 一 。 

零售 商 在 处 理 大 量 数据 方面 已 经 有 很 长 的 历史 了 ， 多 年 来 条 形 码 和 库存 管理 任务 都 
需要 信息 分 析 ， 但 是 “大 数据 ”对 那些 认为 自己 拥有 良好 数据 分 析 能 力 的 零售 商 也 提出 
了 挑战 。 

近年 来 ， 我 国 的 零售 业 正 处 在 成 长 与 巨变 的 风口 浪 尖 ， 呈 现 出 如 下 发 展 趋势 ， 零售 
变革 速度 加 快 ， 市场 空间 饱和 新 旧 产 业 形 态 并 存 ， 外 资 企 业 长 驱 直 入 ， 企 业经 营 日 趋同 
质 化 ， 盈 利 模式 单一 等 。 零 售 企 业 人 迫切 需要 提高 自身 的 核心 竞争 力 ， 其 主要 策略 是 外 拓 
和 “内 人 笋 "。 

> 外 拓 : 主要 是 指 通过 并 购 和 自 营 店面 数量 的 扩张 实现 规模 化 发 展 。 

六 “内 敛 ": 主要 是 指 通过 加 强 IT 信息 化 建设 来 实现 内 涵 式 增 长 。 

Edgell Knowledge Network 通过 调查 发 现 ，46% 的 零售 商 认 为 处 理 大 量 数据 是 其 最 
大 的 挑战 ,而 34% 的 零售 商 表示 仅仅 大 量 的 数据 类 型 就 占据 了 自己 很 多 的 注意 力 ，20% 
的 零售 商 认为 数据 产生 过 于 频繁 ， 对 自己 来 说 是 个 麻烦 ， 如 图 10-2 所 示 。 


国 数 据 处 理 量 
图 数据 处 理 种 类 
口 数据 处 理 速 度 


46% 34% 20% 


图 10-2 北美 零售 商 认为 管理 “大 数据 ” 带 来 的 最 大 挑战 
如 何 培养 忠实 的 消费 群 ， 并 充分 挖掘 客户 信息 中 所 蕴藏 的 商业 价值 ， 如 何 用 数据 为 
企业 的 经 营 提出 实时 的 决策 指导 ， 已 经 成 为 零售 企业 长 足 发 展 的 迫切 需求 ， 也 是 零售 企 
业 面临 的 挑战 。 
专家 提醒 
笔者 认为 ， 阻 碍 零售 商 把 更 多 的 资源 投入 “大 数据 ”领域 的 因素 应 该 是 潜在 的 收益 和 投 
资 回报 仍然 不 明朗 。 
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10.1.3 ”大 数据 对 零售 行业 的 价值 


如 今 ， 中 国 零售 业 面临 着 巨大 的 挑战 和 困难 ， 整 个 行业 都 在 积极 探寻 发 展 出 路 。 此 
时 ， 一 个 新 的 关键 词 出 现 了 ， 让 整个 行业 看 到 了 新 的 曙光 ， 它 就 是 “大 数据 "。 

毫 无 疑问 ， 我 们 已 经 进入 了 大 数据 时 代 ， 面 对 海量 、 碎 片 化 的 数据 ， 零 售 企业 该 怎 
么 利用 和 管理 , 为 企业 的 发 展 提供 帮助 ， 可 能 是 一 些 管理 者 正在 思考 的 问题 。 笔 者 认为 ， 
大 数据 对 零售 行业 的 价值 主要 体现 在 6 个 方面 ， 如 图 10-3 所 示 。 


图 10-3 大 数据 对 零售 行业 的 价值 体现 


专家 提醒 

笔者 认为 ， 个 性 化 精准 推荐 是 零售 商 运 用 大 数据 的 最 重要 “法 宝 ”。 以 日 常 的 “垃圾 短 
信 ” 为 例 ， 信 息 并 不 都 是 “垃圾 ”， 因 为 收 到 的 人 并 不 需要 而 被 视 为 垃圾 。 通 过 用 户 行为 数 
据 进行 分 析 后 ， 可 以 给 需要 的 人 发 送 需 要 的 信息 ， 这 样 “ 垃 圾 短信 ”就 成 了 有 价值 的 信息 。 
在 日 本 的 麦当劳 ， 用户 在 手机 上 下 载 优惠 券 ， 再 去 餐厅 用 运营 商 的 手机 钱包 优惠 支付 。 运营 
商 和 麦当劳 搜集 相关 消费 信息 ， 例 如 经 常 买 什么 汉堡 ， 去 哪个 店 消费 ， 消 费 频次 多 少 ， 然 后 
精准 推送 优惠 券 给 用 户 。 

大 数据 对 零售 企业 的 最 大 价值 是 ， 将 零售 策略 与 大 数据 技术 进行 结合 ， 最 大 程度 地 
编制 前 瞻 性 的 零售 策略 , 确保 销售 计划 的 实现 。 因此 ,零售 企业 可 以 根据 大 数据 的 特性 ， 
主动 地 在 业务 数据 产生 的 同时 做 出 相应 的 策略 应 对 ， 为 企业 赢得 更 多 的 时 间 和 市 场 策略 
调整 空间 。 要 做 到 这 一 点 ， 零 售 企业 的 需要 注意 以 下 4 个 方面 : 

( 1 ) 转换 态度 。 企 业 的 领导 者 首先 要 重视 大 数据 的 发 展 ， 重 视 企 业 的 数据 中 心 ， 
把 收集 顾客 数据 作为 企业 营销 的 第 一 目标 。 

(2 ) 做 好 准备 。 对 企业 内 部 人 员 进行 培训 及 建立 收集 数据 的 软 硬 件 机 制 。 

( 3 ) 制定 原则 。 以 业务 需求 为 准则 ， 确 定 哪些 数据 是 需要 收集 的 。 

(4) 规划 目标 。 确 认 在 企业 已 有 的 数据 基础 上 或 者 未 来 方向 前 提 下 ， 如 何 达成 前 
三 项 目标 的 基础 建设 方案 。 

目前 ， 一 些 IT 软件 开发 运营 商 也 已 经 针对 传统 零售 企业 推出 了 云 服 务 的 基础 平台 


为 中 小 微型 商业 企业 提供 了 大 型 企业 和 超大 型 企业 同样 的 基础 环境 及 系统 架构 ， 小 的 零 
售 企业 只 需 清 晰 地 规划 出 自己 的 目标 和 适合 的 步骤 ， 使 用 云 平 台 按 需 付费 即 可 ， 大 可 不 
必 进 行 巨 大 的 初始 投入 。 

也 许 在 不 久 的 将 来 ， 你 可 以 感受 这 样 一 个 场景 : 你 和 家 人 在 家 中 正在 列 出 自己 出 去 
购物 的 清单 ， 一 家 商场 的 客服 会 “恰到好处 地 ”发 来 短 讯 ， 提 醒 你 新 到 了 一 些 货品 ， 

这 些 货品 很 可 能 “恰好 ”也 在 打折 ， 而 这 些 商品 也 “恰好 ” 正 是 你 想 购 买 的 商品 ， 甚 至 
连 你 没有 想到 而 需要 购买 的 商品 ， 都 在 通知 的 清单 中 。 笔 者 认为 ， 这 或 许 是 对 大 数据 这 
门 “内 功 ”应 用 到 炉火纯青 的 地 步 的 表现 。 

在 大 数据 时 代 ， 一 切 似乎 都 变 得 数据 化 ， 如 何 利用 这 样 大 量 的 数据 做 到 以 顾客 需求 
为 上 ， 就 有 待 各 个 零售 企业 “八仙 过 海 各 显 神通 ”了 。 零 售 业 用 好 大 数据 ， 可 以 焕发 新 
的 生机 ， 进 入 蓬勃 发 展 的 新 时 期 。 


10.2 ”要 售 行业 大 数 棍 应 用 案 倒 


值得 关注 的 是 ， 当 国内 的 大 数据 研究 还 停留 在 概念 阶段 和 初步 应 用 阶段 时 ， 国 外 的 
一 些 企业 已 经 在 如 火 如 茶 地 运用 大 数据 ， 并 带 来 了 可 观 的 经 济 效益 。 本 节 主 要 介绍 零售 
行业 大 数据 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价 值 。 


10.2.1 【案例 】 ZARA: 可 以 预见 未 来 的 时 尚 圈 


ZARA 是 西班牙 Inditex 集团 旗下 的 一 个 子 公司 ， 它 既是 服装 品牌 ， 也 是 专营 ZARA 
品牌 服装 的 连锁 零售 品牌 ， 为 全 球 排名 第 三 、 西 班 牙 排名 第 一 的 服装 商 ， 在 世界 各 地 56 
个 国家 ， 设 立 了 超过 两 千 多 家 的 服装 连锁 店 ， 如 图 10-4 所 示 。 


图 10-4 ZARA 服装 连锁 店 
走 进 ZARA 的 店内 ， 可 以 发 现 柜 台 和 店内 各 角落 都 装 有 摄影 机 ， 店 经 理 随身 带 着 
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PDA ( Personal Digital Assistant， 又 称 为 掌上 电脑 )。 当 消费 者 向 店员 反映 :“ 这 个 衣 领 
图 案 很 漂亮 "、“ 我 不 喜欢 口袋 的 拉链 ”这 些 细微 末节 的 细 项 时 ， 店 员 都 会 向 分 店 经 理 汇 
报 。 经 理 通 过 ZARA 内 部 全 球 资 讯 网 络 ， 每 天 至 少 两 次 给 总 部 设计 人 员 传 递 资讯 ， 由 总 
部 作出 决策 后 立刻 传送 到 生产 线 ， 改 变 产品 样式 。 

每 天 关 店 后 , 销售 人 员 都 会 盘点 货品 上 下 架 情 况 , 并 对 客人 购买 与 退货 率 做 出 统计 ， 
再 结合 柜台 现金 资料 和 交易 系统 做 出 当日 成 交 分 析 报 告 ， 分 析 当 日 产品 热 销 排 名 ， 然 后 
数据 会 直接 传送 至 ZARA 的 仓储 系统 。 

ZARA 为 了 增加 网 络 巨 量 资料 的 串 连 性 , 2010 年 在 6 个 欧洲 国家 成 立 网 络 商 店 , 并 
于 2011 年 又 分 别 在 美国 、 日 本 推出 网 络 平台 ， 除 了 增加 营 收 ， 线 上 商店 强化 了 双向 搜 
寻 引 擎 、 资 料 分 析 的 功能 。 

ZARA 通常 先 在 网 络 上 举办 消费 者 意见 调查 ， 再 从 网 络 回 饥 中 ， 揪 取 顾 客 意见 ， 以 
此 改善 实际 出 货 的 产品 。ZARA 的 网 络 平台 不 仅 会 回收 意见 给 生产 端 ， 让 决策 者 精准 找 
出 目标 市 场 ; 也 对 消费 者 提供 更 准确 的 时 尚 讯息 ， 双 方 都 能 享受 大 数据 带 来 的 好 处 。 同 
时 ， 网 络 商店 还 为 ZARA 至 少 提升 了 10% 的 营 收 。 

通常 情况 下 ， 会 在 网 络 上 搜寻 时 尚 资讯 的 人 ， 对 服饰 的 喜好 、 资 讯 的 掌握 、 催 生 潮 
流 的 能 力 ， 比 一 般 大 众 更 胜 一 筹 。ZARA 也 紧 紧 掌握 了 这 一 群 人 的 动态 信息 ， 将 网 络 上 
的 海量 资料 看 作 实体 店面 的 测试 指标 。 再 者 , 会 在 网 络 上 抢先 得 知 ZARA 资讯 的 消费 者 ， 
进 实 体 店面 消费 的 比率 也 很 高 。 

ZARA 推行 的 海量 资料 整合 ,后 来 被 ZARA 所 属 英 德 斯 集团 底下 8 个 品牌 学 习 应 用 。 
可 以 预见 未 来 的 时 尚 圈 ， 除 了 台面 上 的 设计 能 力 ， 人 台面 下 的 “资讯 /数据 大 战 ”将 成 为 更 
重要 的 “隐形 战场 "。 

运用 大 数据 分 析 ，ZARA 最 短 3 天 可 以 推出 一 件 新 品 ， 一 年 可 推出 12000 款 时 装 。 
ZARA 平 均 每 件 服装 价格 只 有 LVHM 的 四 分 之 一 ,但 是 , 回 看 两 家 公司 的 财务 年 报 ,ZARA 
税 前 毛利 率 比 LVHM 集团 还 高 23.6%。 

【 案例 解析 】: 在 本 案例 中 , ZARA 通过 收集 海量 的 消费 者 意见 , 做 出 生产 销售 决策 ， 
这 样 的 做 法 大 大 降低 了 存货 率 。 同 时 ， 根 据 这 些 电话 和 电脑 数据 ，ZARA 可 以 分 析出 相 
似 的 “区 域 流行 "， 在 颜色 、 版 型 的 生产 中 ， 做 出 最 靠近 客户 需求 的 市 场 区 隔 。 

专家 提醒 

市 场 区 隔 (Market Segment ) 是 将 消费 者 依 不 同 的 需求 、 特 征 区 分 成 若干 个 不 同 的 群体 ， 
而 形成 各 个 不 同 的 消费 群 。 市 场 区 隔 不 仅 是 静态 的 概念 ， 也 是 动态 的 过 程 。 它 是 了 解 某 一 群 
特定 消费 者 的 特定 需求 ,通过 新 产品 或 新 服务 或 新 的 沟通 形式 , 使 消费 者 从 认 知 到 使 用 产品 
或 服务 并 回馈 相关 信息 的 过 程 。 

“大 数据 ”最 重要 的 功能 是 缩短 生产 时 间 ， 让 生产 端 依照 顾客 意见 ， 于 第 一 时 间 迅 
速 修正 。“" 大 数据 ”运营 成 功 的 关键 ， 是 资讯 系统 能 与 决策 流程 紧密 结合 ， 迅 速 对 消费 
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者 的 需求 作出 回应 和 修正 ， 并 且 立 刻 执行 决策 。 
10.2.2 【案例 】 沃尔玛 : 大 数据 帮 你 选 好 购物 单 


前 面 的 章节 已 经 讲 了 沃尔玛 的 数据 中 心 基础 构建 ， 下 面 就 来 分 析 一 下 沃尔玛 是 如 何 
利用 大 数据 来 助力 零售 业务 的 。50 年 前 ， 山姆. 沃 尔 顿 在 阿肯色 州 的 罗杰斯 开创 了 第 一 
个 沃尔玛 折扣 商店 ， 如 今 这 家 折扣 零售 商 已 经 成 为 跨国 公司 。 

下 面 列 出 了 18 个 关于 沃尔玛 的 事实 。 
事实 1: 2012 年 沃尔玛 的 销售 额 达 4440 亿美 元 , 这 个 数字 比 奥 地 利 的 GDP 多 200 
亿美 元 。 如 果 沃 尔 玛 是 一 个 国家 的 话 ， 它 将 是 第 26 个 世界 最 大 的 经 济 体 。 

事实 2: 沃尔玛 有 全 球 雇员 220 万 ， 相 当 于 休斯敦 人 口 ， 仅 在 美国 就 雇用 了 140 万 
员工 。 

事实 3， 如 果 把 沃尔玛 比 作 一 个 军队 ， 它 将 是 仅 次 于 中 国 的 世界 第 二 大 军队 。 

事实 4: 沃尔玛 相当 于 家 得 宝 、 克 罗 格 、 塔 吉 特 、 希 尔 斯 、 好 食 多 和 凯 马 特 这 些 企 
业 的 组 合 。 

事实 5: 平均 每 个 4 口 之 家 每 年 在 沃尔玛 花费 超过 4000 美元 。 

事实 6: 沃尔玛 有 分 布 在 27 个 国家 的 10400 家 商店 ， 每 周 的 顾客 超过 两 亿 。 

事实 7: 美国 人 花 在 食品 杂货 上 的 每 4 美元 中 ， 就 有 1 美元 是 花 在 沃尔玛 。 

事实 8: 2012 年 ， 首 席 执 行 官 迈克 尔 。 杜 克 年 薪 是 3500 万 美元 ， 每 小 时 的 工资 比 
一 个 全 职 雇员 全 年 赚 的 还 多 。 

事实 9: 2009 年 ， 沃 尔 玛 销售 最 多 的 商品 是 香蕉 。 

事实 10:2001 年 一 2006 年 ,中 国 对 沃尔玛 的 出 口 占 美国 对 华 贸 易 逆 差 增 长 ( growth ) 
的 11%。 

事实 11: 将 沃尔玛 的 所 有 零售 商店 空间 平 摊 在 同一 个 地 方 ， 将 超过 9 亿 平方 英尺 ， 
达到 34 平方 英里 ， 大 约 是 曼哈顿 的 1.5 倍 。 

事实 12: 沃尔玛 的 停车 场 占 地 规模 相当 于 佛罗里达 州 的 坦 帕 市 。 

事实 13: 2000 年 ， 沃 尔 玛 起 诉 是 4851 次 ， 相 当 于 每 两 小 时 一 次 。 

事实 14: 90% 的 美国 人 生活 中 ，15 英里 范围 内 就 有 一 个 沃尔玛 店 。 

事实 15: 沃尔玛 家 族 把 2% 的 收入 捐 给 了 慈善 机 构 。 比 尔 。 盖 茨 捐 了 48% 的 净 资 
产 ， 而 沃 伦 . 巴菲特 捐 了 净 资 产 的 78%。 

事实 16: 每 10 万 居民 中 新 增加 一 个 沃尔玛 巨型 商场 ， 就 使 这 些 居民 的 平均 体重 指 
数 增加 0.25 个 单位 ， 肥 胖 率 增加 2.4%。 

事实 17: 全 球 卫星 定位 系统 装置 Telenav 中 ， 最 常见 的 输入 目的 地 是 沃尔玛 。 

事实 18: 沃尔玛 有 大 约 4700 个 ( 90% ) 国际 商店 不 使 用 沃尔玛 的 字号 ， 包 括 墨 西 
哥 的 Walmex、 英 国 的 阿 斯 达 、 日 本 的 西 友 、 印 度 的 Best Price。 
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从 以 上 数据 可 以 看 出 ， 沃 尔 玛 本 身 就 是 一 个 庞大 的 数据 库 ， 可 以 用 于 商业 上 的 各 种 
分 析 和 应 用 。 

2011 年 4 月 ， 沃 尔 玛 以 3 亿美 元 高 价 收购 了 一 家 长 于 分 类 的 社 群 网 站 Kosmix。 
Kosmix 不 仅 能 收集 、 分 析 网 络 上 的 海量 资料 ( 大 数据 )， 并 且 结合 沃尔玛 商场 顾客 的 结 
账 资料 等 数据 ， 它 还 能 将 这 些 资讯 个 人 化 ， 提 供 采购 建议 给 终端 消费 者 。 这 意味 着 沃 尔 
玛 使 用 的 大 数据 模式 ， 已 经 从 “挖掘 ”顾客 需求 进展 到 能 够 “创造 ”消费 需求 。 

沃尔玛 利用 Kosmix 打造 了 一 套 完整 的 零售 大 数据 系统 一 一 “社交 基因 组 ( Social 
Genome )”， 它 还 可 以 连接 到 Twitter、Facebook 等 社交 媒体 。 数 据 工程 师 从 每 天 热门 
消息 中 , 推出 与 社会 时 事 呼 应 的 商品 , 创造 消费 需求 。 分 类 范围 包含 消费 者 、 新 闻 事件 、 
产品 、 地 区 、 组 织 和 新 闻 议题 等 。 值 得 注意 的 是 ， 如 果 沃 尔 玛 能 够 通过 社交 网 络 的 大 数 
据 ， 掌 握 消 费 者 行为 ， 或 许 它 能 重新 定义 消费 的 方式 。 

为 了 得 到 便利 和 快捷 的 支付 体验 ， 沃 尔 玛 推出 了 可 以 让 消费 者 进行 智能 手机 支付 的 
应 用 软件 Walmart App， 如 图 10-5 所 示 。 沃尔玛 通过 对 用 户 过 去 购买 数据 的 分 析 ， 在 用 
户 打 开 Walmart App 之 后 就 能 自动 生成 用 户 的 购物 单 ， 预 判 他 们 想 买 的 商品 。 


WalmartApp 


图 10-5 Walmart App 


目前 ，Walmart App 已 经 含有 购物 单 的 功能 ， 能 告诉 顾客 他 们 想 要 货品 的 位 置 ， 而 
且 还 发 放 类 似 商 品 的 电子 优惠 券 。 沃 尔 玛 还 在 测试 一 款 名 为 “Scan and Go” 的 系统 ， 
用 户 只 要 在 手机 上 挨个 扫描 商品 ， 然 后 在 收银 台 扫 一 下 手机 就 可 以 买单 直人 了 ， 再 也 不 
用 排 长 长 的 队 了 。 

沃尔玛 全 球 移动 部 门 的 掌 门 人 Thomas 表示 :“ 完 美的 购物 单 就 是 你 根本 不 用 动手 ， 
你 一 打开 它 就 在 那里 了 ， 这 就 是 我 们 想 要 的 。 

专家 提醒 

沃尔玛 在 对 消费 者 购物 行为 进行 分 析 时 发 现 ， 男 性 顾客 在 购买 婴儿 尿 片 时 ,常常 会 顺便 
搭配 几 瓶 啤酒 来 篇 劳 自己 ， 于 是 推出 了 将 啤酒 和 尿布 捆绑 销售 的 促销 手段 。 如 今 ， 这 一 “ 啤 
酒 + 尿 布 ”的 数据 分 析 成 果 也 成 了 大 数据 技术 应 用 的 经 典 案例 。 

【 案例 解析 】， 在 本 案例 中 ， 沃 尔 玛 结合 社交 网 络 媒体 和 移动 APP， 也 是 为 了 进 一 
步 提高 其 对 大 数据 的 分 析 、 应 用 能 力 , 将 其 对 大 数据 的 应 用 能 力 提升 到 一 个 全 新 的 境界 。 


零售 商 对 个 人 消费 数据 进行 分 析 ， 用 于 预测 “一 系列 高 度 敏 感 的 个 人 属性 "， 包 括 性 倾 
向 、 种 族 、 宗 教 和 政治 观点 、 健 康 状 况 、 饮 食 习 惯 、 性 格 特征 、 怀 孕 状 况 、 休 闲 娱乐 追 
求 、 父 母 离异 、 年 龄 和 性 别 等 。 笔 者 认为 ， 零 售 商 同时 还 要 注意 大 数据 可 能 带 来 的 风险 。 
例如 ， 从 本 质 上 讲 ， 像 沃尔玛 这 样 的 公司 会 越 来 越 多 地 使 用 数据 ,包括 真实 和 预测 数据 ， 
从 而 将 人 群 进行 分 类 ， 一 些 低 收入 阶层 类 别 遭 受 较 差 待遇 的 风险 在 增加 。 


10.2.3 【案例 】 淘 宝 : 开放 “数据 魔方 ”的 秘密 


2010 年 3 月 ， 淘 宝 开放 网 站 所 有 的 交易 数据 ， 并 将 这 一 计划 命名 为 “数据 魔方 "。 
商家 、 企 业 及 消费 者 将 可 以 分 享 到 其 海量 原始 数据 , 数据 开放 将 有 原则 、 分 层次 地 进行 。 
淘宝 还 将 与 第 三 方 专业 研究 机 构 合 作 ， 为 商家 带 来 基于 数据 之 上 的 分 析 、 解 读 、 业 务 建 
设 等 服务 ， 协 助 商 家 培养 其 通过 读数 据 指导 业务 的 能 力 。 

据悉 , 每 天 有 数 以 万 计 的 交易 在 淘宝 上 进行 , 与 此 同时 相应 的 交易 时 间 、 商 品 价格 、 
购买 数量 会 被 记录 ， 更 重要 的 是 ， 这 些 信 息 可 以 与 买方 和 卖方 的 年 龄 、 性 别 、 地 址 甚至 
兴趣 爱好 等 个 人 特征 信息 相 匹 配 。 各 大 中 小 城市 的 百货 大 楼 做 不 到 这 一 点 ， 大 大 小 小 的 
超市 做 不 到 这 一 点 ， 而 互联 网 时 代 的 淘宝 却 可 以 轻易 做 到 。 

淘宝 数据 魔方 就 是 淘宝 平台 上 的 大 数据 应 用 方案 。 通 过 这 一 服务 ， 商 家 可 以 了 解 淘 
宝 平台 上 的 行业 宏观 情况 、 自 己 品牌 的 市 场 状况 、 消 费 者 行为 情况 等 ， 并 可 以 据 此 进行 
生产 和 库存 决策 ， 而 与 此 同时 ， 更 多 的 消费 者 也 能 以 更 优惠 的 价格 买 到 更 心仪 的 宝贝 ， 
如 图 10-6 所 示 。 
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10-6 淘宝 数据 魔方 界面 
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今年 春天 流行 穿 什么 ? 喝 什么 ? 玩 什 么 ? 网 上 最 热 销 的 品牌 ， 最 热 搜 的 关键 词 又 是 
什么 ”其 实 ， 以 上 问题 都 能 通过 淘宝 数据 魔方 来 一 一 解答 。 

淘宝 网 利用 大 数据 统计 分 析 得 到 了 有 趣 的 结果 ， 当 然 这 些 分 析 更 为 卖家 勾画 出 了 他 
们 潜在 的 客户 类 型 图 ， 从 而 实施 精准 的 市 场 营销 战略 。 例 如 ， 从 在 淘宝 指数 中 查询 “ 花 
露水 ”的 结果 可 知 ， 如 果 消 费 者 决定 在 淘宝 上 购买 花露水 ， 他 很 有 可 能 会 购买 驱 蚊 液 、 
春子 粉 ， 而 很 少 去 考虑 其 他 驱 蚊 产 品 。 

类 似 信息 有 多 种 用 途 ， 例 如 商家 扩大 或 缩小 经 营 范围 时 ， 可 以 藉 此 来 选择 扩大 或 缩 
小 商品 的 类 别 ， 搞 促销 活动 时 ， 商 城 运营 人 员 可 以 藉 此 选择 促销 的 范围 乃至 不 同 商品 的 
促销 力度 等 。 

多 数 卖家 会 先 把 店铺 运营 目标 放 在 “ 卖 货 ”上 ， 之 后 才 是 “做 品牌 "。 但 即便 是 初 

级 阶段 的 “ 卖 货 ”目标 ， 也 要 做 好 定位 。 淘 宝 数据 魔方 作为 行业 数据 工具 ， 主 要 的 作用 
就 在 于 “行业 定位 "。 
其 实 ， 互 联网 的 竞争 就 是 圈 住 用 户 能 力 的 竞争 ， 淘 宝 依靠 开放 数据 平台 策略 ， 让 更 
多 的 人 聚集 到 淘宝 ， 使 用 他 的 服务 ， 这 首先 就 是 人 气 上 的 胜利 。 此 外 ， 随 着 淘宝 用 户 群 
的 壮大 ， 各 种 增值 服务 应 运 而 生 ， 而 且 淘宝 也 已 经 进行 了 有 效 的 布局 ， 包 括 阿里 软件 、 
阿里 妈妈 都 是 为 此 做 的 布局 。 

【 案例 解析 】， 在 本 案例 中 ， 随 着 淘宝 用 户 数量 的 不 断 攀 升 ， 交 易 量 的 不 断 增加 ， 
淘宝 必须 要 升级 数据 中 心 ， 增 加 数据 中 心 的 处 理 能 力 ， 从 而 提升 网 友 购 物体 验 。 这 就 和 
沃尔玛 、 家 乐 福 ， 为 提高 用 户 购物 效率 ， 减 少 付款 排队 等 待 ， 增 加 付款 台 ， 提 升 金 融 系 
统 处 理 速度 是 一 样 的 道理 。 

在 笔者 看 来 ， 淘 宝 数据 魔方 中 也 蕴含 了 电子 商务 行业 的 业务 流程 ， 每 个 维度 都 是 站 
在 店主 关注 的 角度 来 设计 ， 而 且 还 帮助 店主 了 解 行业 状况 、 目 标 群体 、 年 龄 结构 、 性 别 
构成 、 上 网 时 间 、 购 买 时 间 等 ， 剩 下 的 就 是 店主 如 何 用 数据 来 挖掘 商机 了 。 这 个 过 程 就 
好 像 做 一 道 菜 ， 淘 宝 数据 魔方 提供 了 大 量 的 新 鲜 蔬 菜 和 佐 料 ， 而 且 帮 助 用 户 做 好 一 切 下 
锅 的 准备 。 


专家 提醒 
阿里 信用 贷款 是 ， 阿 里 巴巴 通过 掌握 的 企业 交易 数据 ,借助 大 数据 技术 自动 分 析 判 定 是 
否 给 予 企 业 贷 款 ， 全 程 不 会 出 现 人 工 干 预 。 据 悉 ， 截 至 目前 阿里 巴巴 已 经 放贷 300 多 亿 元 ， 
坏账 率 约 0.3% 左 右 ， 大 大 低 于 商业 银行 。 


10.2.4 【案例 】Target: 准确 判断 哪 位 顾客 怀孕 


美国 的 出 生 记录 是 公开 的 ， 等 孩子 出 生 了 ， 新 生 儿 母亲 就 会 被 铺天盖地 的 产品 优惠 
广告 包围 。 因 此 ， 孕 妇 对 于 零售 商 来 说 是 个 含金量 很 高 的 顾客 群体 ， 但 是 她 们 一 般 会 去 


专门 的 孕妇 商店 购买 孕期 用 品 。 

如 果 Target 能 够 赶 在 所 有 零售 商 之 前 知道 哪 位 顾客 怀孕 了 , 市 场 营销 部 门 就 可 以 早 
早 地 给 他 们 发 出 量 身 定制 的 孕妇 优惠 广告 ,早早 圈定 宝贵 的 顾客 资源 。 为 此 ，Target 的 
市 场 营销 人 员 求 助 于 Target 的 顾客 数据 分 析 部 要 求 建立 一 个 模型 , 在 孕妇 第 2 个 妊娠 期 
就 把 她 们 给 确认 出 来 。 可 是 怀孕 是 很 私密 的 信息 ， 如 何 能 够 准确 地 判断 哪 位 顾客 怀孕 
了 呢 ? 

不 久 后 ,Target 市 场 营 销 部 经 理 Andrew Pole 从 公司 的 一 个 迎 婴 聚会 ( baby shower ) 
上 找到 了 “入 口 "。 原来, 迎 婴 聚会 通过 一 个 登记 表 记 录 了 顾客 的 消费 数据 。 Andrew Pole 
从 Target 商品 数据 库 的 数 万 类 商品 和 存放 交易 记录 的 数据 仓库 中 挖掘 出 25 项 与 怀孕 高 
度 相关 的 商品 ， 制 作 “ 怀 孕 预 测 ” 指 数 ， 并 以 此 可 以 推算 出 预产期 ， 抢 先 一 步 将 与 孕妇 
相关 的 产品 推送 给 客户 。 

为 了 不 让 顾客 觉得 商家 侵犯 了 自己 的 隐私 ，Target 把 孕妇 用 品 的 优惠 广告 夹杂 在 其 
他 一 大 堆 与 怀孕 不 相关 的 商品 优惠 广告 当中 。 

下 面 看 一 个 关于 Target 的 真实 故事 : 美国 一 名 男子 问 入 他 家 附近 的 一 家 Target 连 
锁 超 市 ， 并 对 店员 抗议 道 :“ 你 们 竟然 给 我 17 岁 的 女儿 发 婴儿 尿 片 和 童车 的 优惠 券 。 
店铺 经 理 立 刻 向 来 者 承认 错误 ， 但 是 其 实 该 经 理 并 不 知道 这 一 行为 是 总 公司 运行 数据 控 
掘 的 结果 。 一 个 月 后 , 这 位 父亲 来 道歉 ， 因 为 这 时 他 才 知 道 他 的 女儿 的 确 怀孕 了 。Target 
比 这 位 父亲 足 足 早 了 一 个 月 知道 他 女儿 怀孕 的 情况 。 

根据 这 个 “大 数据 ”模型 ，Target 制订 了 全 新 的 广告 营销 方案 ,结果 Target 的 孕期 
用 品 销售 呈现 了 爆炸 性 的 增长 。Target 的 “大 数据 ”分 析 技 术 从 孕妇 这 个 细 分 顾客 群 开 
始 向 其 他 各 种 细 分 客户 群 推广 ， 从 Target 使 用 “大 数据 ”的 2002 一 2010 年 间 ，Target 
的 销售 额 从 440 亿美 元 增长 到 了 670 亿美 元 。 

【 案例 解析 ]， 在 本 案例 中 ，Target 是 基于 数据 挖掘 所 做 的 用 户 行为 分 析 的 结果 。 
如 果 不 是 在 拥有 海量 的 用 户 交 易 数 据 基 础 上 实施 数据 挖掘 ，Target 不 可 能 做 到 如 此 精准 
的 营销 。 然 而 ， 正 是 因为 对 于 数据 挖掘 的 充分 应 用 ，Target 才能 在 低迷 的 美国 经 济 环境 
下 持续 发 展 。 

可 以 想象 的 是 , 许多 孕妇 在 浑然 不 觉 的 情况 下 成 了 Target 常年 的 忠实 拥护 者 , 许多 
孕妇 产品 专卖 店 也 在 浑然 不 觉 的 情况 下 破产 。 浑 然 不 觉 的 背景 下 ， 大 数据 正在 推动 一 股 
强劲 的 商业 革命 暗 涌 , 零售 商 们 早晚 要 面 对 的 一 个 问题 就 是 : 究竟 是 在 浑然 不 觉 中 崛起 ， 
还 是 在 浑然 不 觉 中 灭亡 。 

在 消费 者 的 需求 呈 个 性 化 发 展 的 大 趋势 下 ， 笔 者 建议 零售 商 应 该 学 会 收集 、 储 存 和 
分 析 大 量 的 数据 ， 并 发 挥 出 这 些 数据 的 价值 。 基 于 大 数据 的 业务 模型 将 主导 零售 业 后 十 
年 的 格局 , 大 数据 对 打破 零售 业 常规 局 面具 有 重要 作用 , 其 能 够 帮助 零售 商 们 筛选 信息 ， 
迎接 挑战 ， 并 且 利 用 技术 为 客户 提供 解决 方案 。 
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10.2.5 【案例 】 上 品 折扣 : 用 大 数据 做 全 渠道 营销 


春节 、 元 宵 节 、 情 人 节 ， 随 着 各 种 节日 的 相继 来 临 ， 网 购 礼品 热潮 让 网 络 商家 体验 
着 一 波 又 一 波 的 狂欢 盛宴 。 而 在 国内 ， 最 早 用 折扣 吸引 大 众 眼 球 的 ， 不 是 淘宝 和 京东 ， 
而 是 一 家 线 下 的 品牌 折扣 连锁 店 一 一 上 品 折 扣 。 

上 品 折扣 ( Shopin ) 是 中 国都 市 型 百货 折扣 连锁 店 旗舰 品牌 ， 襄 括 8 家 实体 店 和 一 
家 电子 商务 网 站 上 品 折 扣 网 。 上 品 折扣 主要 以 联营 模式 为 主 ， 并 在 逐步 开展 采购 买 手 业 
务 ， 目 前 合作 的 供应 商 达 3000 多 家 ， 几 千 个 品牌 在 上 品 折扣 的 门店 和 线 上 进行 销售 ， 
逐步 形成 了 线 上 线 下 一 体 化 的 经 营 模式 。 

从 电 商 热潮 到 全 渠道 营销 这 个 过 程 中 ， 上 品 折扣 管理 层 也 意识 到 所 谓 的 大 数据 时 
代 ，IT 技术 将 扮演 越 来 越 重要 的 角色 ， 不 仅仅 是 电 商 业务 ， 未 来 的 数据 管理 、 实 体 店 、 
营销 、 会 员 体系 全 部 都 需要 一 个 更 智能 的 数据 库 去 做 支撑 。 

上 品 折扣 于 2009 年 率先 在 传统 零售 商 中 开始 了 B2C 网 上 商城 业务 , 在 行业 中 逐渐 处 
于 领先 的 低位 。2009 年 5 月 , 上 品 折扣 旗下 官方 购物 网 站 "上品 折 扣 网 ” 上线， 如 图 10-7 
所 示 。2010 年 4 月 , “上品 折扣 网 ”实现 了 由 单 店 购物 系统 到 多 店 购物 系统 的 升级 。 
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图 10-7 上 品 折扣 网 主页 


经 过 三 年 多 的 时 间 ， 上 品 折扣 就 积累 了 大 量 商品 数据 。 为 了 利用 好 这 些 数据 为 企业 
和 供应 商 服务 ， 使 其 不 再 沉睡 ， 让 数据 说 话 ， 上 品 折扣 开始 了 BI 分 析 的 探索 之 路 ， 将 其 
定义 为 BDA ( 商业 数据 分 析 )。 

上 品 折 扣 在 构建 BI 系统 时 , 遵循 一 个 原则 : 节约 投资 , 选择 适合 企业 现 阶段 的 产品 ， 
深入 了 解 业务 ， 规划 业务 模型 ， 再 到 数据 仓库 的 实现 。BDA 系统 主要 的 特色 是 ， 对 在 上 
品 销售 的 3000 多 家 供应 商 , 近 3000 家 品牌 商品 做 了 全 品类 、 单 品级 的 数据 分 析 ， 对 供 


应 商 提供 了 实时 的 销售 信息 ， 这 可 以 推动 供应 商 更 有 效 地 补 货 ， 为 商品 规划 部 门 、 营 销 
部 门 ， 以 及 电子 商务 提供 了 统一 的 数据 分 析 。 

目前 上 品 折扣 的 8 个 卖场 内 有 超过 1000 个 知名 品牌 ， 每 年 卖家 需要 管理 的 SKU 
( Stock Keeping Unit， 库 存量 单位 ) 数 超过 300 万 。 上 品 折 扣 对 卖场 内 所 有 商品 都 做 
了 数据 化 管理 ， 并 通过 替 导购 员 配 备 iPad 实现 了 线 上 线 下 实时 信息 传输 和 库存 共享 。 
例如 ， 上 品 折 扣 会 在 品类 、 季 节 、 适 合 人 群 、 款 式 等 角度 对 数据 进行 详细 的 分 析 。 

世家 提醒 

受 餐 馆 用 iPad 点 菜 的 启发 ， 上 品 折 扣 还 开发 了 自主 品牌 PDA 用 于 销售 环节 。 上 品 折扣 
PDA 主要 用 于 解决 商品 数据 的 采集 和 现场 的 物品 销售 。 上 品 折扣 的 6000 名 销售 员 ， 每 个 人 
的 数据 都 是 对 接 到 同一 个 系统 中 。 

上 品 折扣 的 BDA 系统 应 用 也 是 刚刚 起 步 ， 从 无 到 有 需要 一 个 适应 和 认 知 认同 的 过 
程 ， 它 正在 起 到 积极 的 作用 。 上 品 折扣 从 2012 年 开始 投入 数 千 万 元 ,与 SAP 合作 改造 
数据 系统 ，SAP 甚至 把 上 品 折扣 列 为 亚洲 的 零售 灯塔 客户 。 这 是 一 个 庞大 业务 梳理 的 过 
程 ， 涉 及 高 管 人 才 、 数 据 库 、 供 应 链 、 品 牌 、 终 端 等 方方面面 ， 整 个 改造 花费 了 一 年 半 
时 间 。 

这 次 SAP 帮助 上 品 折扣 做 出 了 两 个 突破 , 第 一 是 同步 线 上 线 下 的 库存 管理 , 这 是 一 
个 根本 前 提 。 第 二 是 在 管理 架构 上 借鉴 欧美 买 手 制度 ， 以 前 联营 做 的 多 买 手 做 的 少 ， 有 
很 多 不 到 位 的 地 方 ， 以 后 基于 买 手 的 自我 搭建 能 力 都 将 有 很 大 变化 。 

随 着 消费 者 购物 习惯 改变 ， 百 货 卖 场 也 需要 围绕 顾客 衍生 出 新 的 销售 渠道 。 此 外 ， 
上 品 折扣 目前 还 通过 微 信 进行 营销 。 据 悉 ， 未 来 上 品 折扣 还 将 借助 二 维 码 通过 邮 报 和 印 
刷 品 直接 零售 商品 。 

上 品 折扣 希望 通过 实体 门店 持续 拓展 全 渠道 业务 , 在 基于 一 整套 的 IT 系统 中 , 通过 
电 商 、 移 动 互 联网 、BI、DM、 电 视 购物 甚至 Call Center ( 呼叫 中 心 ) 等 多 个 渠道 发 展 。 
上 品 折扣 对 全 渠道 营销 寄予 厚望 ， 希 望 未 来 3~ 5 年 内 能 够 占 到 公司 营 收 50% 以 上 。 

【 案例 解析 ])， 从 本 案例 可 以 看 出 ， 从 电 商 热潮 到 全 渠道 营销 这 个 过 程 中 ， 上 品 折 
扣 管 理 层 也 意识 到 所 谓 的 大 数据 时 代 ，IT 技术 将 扮演 越 来 越 重要 的 角色 ， 不 仅仅 是 电 商 
业务 ， 未 来 的 数据 管理 、 实 体 店 、 营 销 、 会 员 体系 全 部 都 需要 一 个 更 智能 的 数据 库 去 做 
支撑 。 

另外 ， 上 品 折扣 借助 移动 互联 网 终端 来 加 强 用 户 体 验 ， 采 用 信息 化 技术 和 产品 不 仅 
可 以 不 断 地 提升 企业 竞争 力 ， 还 能 满足 消费 者 日 益 增 长 的 购物 需求 。 


10.2.6 【案例 】 阿迪 达 斯 : 用 大 数据 带 来 利润 


2009 年 8 月 初 ， 在 国内 大 型 的 招聘 网 站 上 相继 出 现 了 一 则 阿迪 达 斯 公司 的 招聘 广 
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告 ， 职 位 为 Inventory Sales Specialist ( 存货 销售 专员 )， 工 作 地 点 为 上 海 阿迪 达 斯 中 国 
区 总 部 。 该 职位 描述 的 首要 条 件 是 : 能 够 按照 不 同 渠 道 ， 根 据 实 际 库存 情况 ， 制 定 一 
年 度 库存 削减 计划 。 

这 样 的 招聘 信息 在 平时 并 不 会 引起 人 们 的 关注 ， 而 在 众多 渠道 商 纷纷 大 面积 低 价 清 
理 手头 存货 ， 有 人 退出 、 有 人 倒闭 ， 甚 至 有 经 销 商 干脆 不 去 阿迪 达 斯 处 提货 的 情况 下 ， 
它 的 意义 就 显得 很 不 寻常 。 越 来 越 多 的 事实 表明 ， 存 货 问题 已 经 让 阿迪 达 斯 进入 到 一 个 
危机 之 中 ， 程 度 甚至 让 其 难以 控制 ， 并 将 对 其 今年 后 两 季 甚 至 明年 的 发 展 造成 影响 。 

阿迪 达 斯 本 应 更 早 启 用 类 似 的 专业 库存 管理 人 才 来 准确 预期 产能 变化 。 但 不 久 后 ， 
与 阿迪 达 斯 一 起 乐观 地 预期 市 场 增长 的 渠道 商 们 发 现 ， 由 于 市 场 并 未 达到 预期 ， 经 销 商 
Ed 货 变 成 了 自己 身上 的 “沉重 包 补 "。 

于 经 营 压 力 ， 甚 至 有 一 些 经 销 商 因 缺 少 资金 宁愿 违反 协议 拒 不 提货 。 由 于 阿迪 达 

斯 与 RE ny 货 到 付款 的 方式 ， 这 些 未 根据 协议 提 走 的 、 积 压 在 阿迪 
达 斯 的 仓库 中 的 货品 总 款 甚至 高 达 上 亿 元 人 民 币 。 

库存 危机 后 ， 阿 迪 达 斯 从 “批发 型 ”公司 转 为 “零售 驱动 型 ”公司 ， 它 从 过 去 只 关 
注 把 产品 卖 给 经 销 商 ， 变 成 了 将 产品 卖 到 终端 消费 者 手中 的 有 力 推动 者 。 而 数据 收集 分 
析 ， 恰 恰 能 让 其 更 好 地 帮助 经 销 商 提 高 售 馨 率 。 

阿迪 达 斯 产品 线 丰 富 ， 过 去 ， 面 对 展厅 里 各 式 各 样 的 产品 ， 经 销 商 很 容易 按 个 人 偏 
好 下 订单 。 现 在 ， 阿 迪 达 斯 会 用 数据 说 话 ， 帮 助 经 销 商 选择 最 适合 的 产品 。 

(人 折 定 个 司 区 搜 的 消 缠 者 需求 。 一 、 二 线 城市 的 消费 者 对 品牌 和 时 尚 更 为 敏感 ， 
可 以 重点 投放 采用 前 沿 科 技 的 产品 、 运 动 经 典 系 列 的 服装 以 及 设计 师 合 作 产品 系列 ; 在 
低 线 城市 ， 消 费 者 更 关注 产品 的 价值 与 功能 ， 诸 如 纯 棉 制品 这 样 高 性 价 比 的 产品 ， 在 这 
些 市 场 会 更 受 欢 迎 。 

( 2 ) 分 析 不 同 区 域 的 经 销 商 数据 : 阿迪 达 斯 会 参照 经 销 商 的 终端 数据 ， 给 予 更 具 
体 的 产品 订购 建议 。 例 如 ， 阿 迪 达 斯 可 能 会 告诉 某 低 线 市 场 的 经 销 商 ， 在 其 辖区 ， 普 通 
跑步 鞋 比 添加 了 减 震 设备 的 跑鞋 更 好 卖 ; 至 于 颜色 ， 比 起 红色 ,当地 消费 者 更 偏爱 蓝 色 。 

推动 这 种 订货 方式 ， 阿 迪 达 斯 得 到 了 经 销 商 们 的 认可 。 一 方面 降低 了 他 们 的 库存 ， 
另 一 方面 增加 了 单 店 销售 率 。 卖 的 更 多 ， 销 售 率 更 高 ， 也 意味 着 更 高 的 利润 。 挖 掘 大 数 
据 ,让 阿迪 达 斯 有 了 许多 有 超 的 发 现 。 例 如 ， 同 为 一 线 城市 ， 北京 和 上 海 消费 趋势 不 同 ， 
气候 是 主要 的 原因 。 实 际 上 ， 对 大 数据 的 运用 ， 也 顺应 了 阿迪 达 斯 大 中 华 区 战略 转型 的 
需要 ， 如 图 10-8 所 示 。 

下 面 看 一 位 阿迪 达 斯 的 忠实 经 销 商 是 如 何 利 用 大 数据 渡 过 危机 并 走向 成 功 的 。 

2012 年 12 月 ， 厦 门 育 泰 在 福建 省 泉州 市 的 一 个 沿海 县 级 市 一 一 南安 开 出 了 一 家 新 
店 。 南 安 算 上 周边 地 区 也 有 150 万 人 口 ， 它 一 般 会 被 定义 为 中 国 这 个 庞大 市 场 里 的 四 线 
或 五 线 城市 。 

厦门 育 泰 是 阿迪 达 斯 在 福建 最 大 的 经 销 商 ， 当 厦门 育 泰 把 第 一 家 阿迪 达 斯 门店 开 到 
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南安 的 时 候 ， 南 安 还 只 有 一 个 购物 中 心 ， 门 店 第 一 年 的 利润 是 12 万 元 。 现 在 ， 随 着 另 
一 个 受到 年 轻 人 欢迎 的 购物 中 心 的 建 起 ， 育 泰 公司 也 挑选 了 一 个 临街 的 好 位 置 ， 开 出 了 
这 一 家 120 平方 米 的 新 店 。 


_】 阿迪达斯 目前 在 中 国 已 有 门店 超过 


图 10-8 ”阿迪达斯 的 大 数据 战略 目标 


厦门 育 泰 总 经 理 叶 向 阳 看 着 同行 大 多 仍 身 陷 库存 泥潭 ， 他 庆幸 自己 选 对 了 合作 伙 
伴 。 他 的 厦门 育 泰 贸易 有 限 公司 与 阿迪 达 斯 合作 已 有 13 年 ， 如 今 旗下 已 拥有 100 多 家 
阿迪 达 斯 门店 。 他 说 ,，“2008 年 之 后 ， 库 存 问题 确实 很 严重 ， 但 我 们 合作 解决 问题 ， 生 
意 再 次 回 到 了 正轨 。" 

现在 ， 叶 向 阳 每 天 都 会 收集 门店 的 销售 数据 ， 并 将 它们 上 传 至 阿迪 达 斯 。 收 到 数据 
后 ， 阿 迪 达 斯 对 数据 做 整合 、 分 析 ， 再 用 于 指导 经 销 商 卖 货 。 研 究 这 些 数 据 ， 让 阿迪 达 
斯 和 经 销 商 们 可 以 更 准确 了 解 当 地 消费 者 对 商品 颜色 、 款 式 、 功 能 的 偏好 ， 同 时 知道 什 
么 价位 的 产品 更 容易 被 接受 。 

叶 向 阳 的 生意 也 在 过 去 两 年 中 有 了 巨大 变化 ,在 他 目前 经 营 的 总 共 100 多 家 门店 中 ， 
有 50% 都 位 于 像 南 安 这 样 的 四 五 线 城市 。 

【 案例 解析 】， 在 本 案例 中 ， 阿 迪 达 斯 通过 与 经 销 商 伙 伴 展开 了 更 加 紧密 的 合作 ， 
以 统计 到 更 为 确切 可 靠 的 终端 消费 数据 ， 有 效 帮助 自己 重新 定义 了 产品 供给 组 合 ， 从 而 
可 以 在 适当 的 时 机 ， 将 符合 消费 者 口味 的 产品 投放 到 相应 的 区 域 市 场 。 简 而 言 之 ， 阿 迪 
达 斯 还 只 是 利用 数据 对 客户 进行 细 分 ， 然 后 开展 针对 性 营销 。 

不 过 , 笔者 认为 阿迪 达 斯 还 缺乏 创新 能 力 , 想 要 创新 就 必须 要 学 会 利用 大 数据 的 " 预 
知 ”能 力 。 零 售 企业 可 以 利用 大 数据 事先 捕捉 顾客 的 关注 点 和 需求 ， 并 且 给 出 可 执行 的 
解决 方案 ， 帮 助 回 流 客户 。 另 一 方面 ， 社 交 媒 体 、 电 子 商务 、 物 联网 等 新 应 用 的 兴起 ， 
打破 了 企业 原 有 的 价值 链 围 墙 ， 仅 对 原 有 价值 链 各 个 环节 的 数据 进行 分 析 ， 已 经 不 能 满 
足 需求 ， 零 售 企 业 需 要 借助 大 数据 战略 打破 数据 边界 ， 了 解 更 为 全 面 的 运营 及 运营 环境 
的 全 景 图 。 
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学 前 提示 

围绕 大 数据 的 话题 主要 集中 在 点 击 流 数据 、 倾 向 性 分 析 和 消费 者 定位 。 但 其 实在 大 
数据 背后 ， 机 器 到 机 器 的 通信 以 及 先进 的 分 析 功能 可 能 会 完全 改变 我 们 周围 的 世界 。 本 
章 将 介绍 大 数据 在 传统 生产 制造 业 的 解决 方案 和 应 用 案例 。 


要 点 展示 
< ”生产 制造 业 大 数据 解决 方案 
< ”生产 制造 业 大 数据 应 用 案例 
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11.1 ”生产 制造 业 大 数据 解决 方案 


如 今 ， 大 数据 正 处 于 引爆 点 ， 有 数 十 亿美 元 投入 到 将 海量 信息 转化 为 对 商业 有 价值 
的 洞察 力 。 不 过 ， 大 数据 的 内 涵 不 仅仅 在 于 数字 和 洞察 力 ， 它 对 促进 智能 化 生产 也 有 着 
重大 意义 。 


11.1.1 大 数据 对 生产 制造 业 的 影响 


笔者 认为 ， 对 于 大 数据 的 理解 不 仅 是 其 中 存在 的 价值 ， 而 更 在 于 可 以 进行 种 种 连接 
以 赋予 大 数据 主动 性 和 预测 性 一 一 或 让 信息 智能 化 。 

然而 ， 为 了 使 信息 智能 化 ， 新 的 连接 需要 建立 起 来 ， 这 样 大 数据 才能 “知道 ” 何 时 
以 何 种 方式 前 往 何 地 。 大 数据 看 起 来 可 能 像 是 工作 流程 的 一 种 简单 升级 ， 但 事实 上 ， 它 
代表 的 东西 可 能 是 自 工 业 革命 以 来 意义 最 深远 的 商业 和 技术 的 融合 一 一 工业 互联 网 
(Industrial Internet )， 如 图 11-1 所 示 。 


更 多 oY 养殖 


图 11-1 工业 互联 网 (Industrial Internet) 


工业 互联 网 将 整合 两 大 革命 性 转变 的 优势 : 其 一 是 工业 革命 ， 伴 随 着 工业 革命 ， 出 
现 了 无 数 台 机 器 、 设 备 、 机 组 和 工作 站 ; 其 二 则 是 更 为 强大 的 网 络 革命 ,在 其 影响 之 下 ， 
计算 、 信 息 与 通信 系统 应 运 而 生 并 不 断 发 展 。 

工业 互联 网 是 指 全 球 工业 系统 与 高 级 计算 、 分 析 、 感 应 技术 以 及 互联 网 连接 融合 的 
结果 。 它 通过 智能 机 器 间 的 连接 并 最 终 将 人 机 连接 ， 结 合 软件 和 大 数据 分 析 ， 重 构 全 球 
工业 ， 激 发 生产 力 ， 让 世界 更 美好 、 更 快速 、 更 安全 、 更 清洁 且 更 经 济 。 伴 随 着 这 样 的 
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发 展 ， 工 业 互 联网 的 3 种 元 素 逐 渐 融 合 ， 充 分 体现 出 它 的 精 散 ， 如 图 11-2 所 示 。 


工作 人 员 


建立 员工 之 间 的 实时 连 
接 ， 连 接 各 种 工作 场所 的 
人 员 ， 以 支持 更 为 智能 的 
设计 、 操 作 、 维 护 以 及 高 
质量 的 服务 与 安全 保障 。 


高 级 分 析 


使 用 基于 物理 的 分 析 法 、 预 测 
算法 、 自 动 化 和 材料 科学 、 电 
气 工程 及 其 他 关键 学 科 的 深 
厚 专业 知识 来 理解 机 器 与 大 
型 系统 的 运作 方式 。 


图 11-2 工业 互联 网 的 3 种 元 素 


工业 互联 网 将 这 些 元 素 融合 起 来 ， 将 为 企业 与 经 济 体 提 供 新 的 机 遇 。 例 如 ， 传 统 的 
统计 方法 采用 历史 数据 收集 技术 ， 这 种 方式 通常 将 数据 、 分 析 和 决策 分 隔 开 来 。 伴 随 着 
先进 的 系统 监控 和 信息 技术 成 本 的 下 降 ， 工 作 能 力 大 大 提高 ， 实 时 数据 处 理 的 规模 得 以 
大 大 提升 ， 高 频率 的 实时 数据 为 系统 操作 提供 全 新 视野 。 

大 数据 是 工业 互联 网 的 命脉 ， 但 工业 互联 网 同样 意味 着 开发 新 的 软件 和 分 析 方法 ， 
以 便 从 原先 不 存在 连接 的 地 方 一 一 如 机 器 内 部 一 一 提取 和 厘清 数据 。 通 过 让 机 器 经 由 软 
件 连接 到 互联 网 ， 数 据 由 此 产生 ， 数 据 洞察 不 断 积累 ， 但 更 重要 的 是 ， 这 些 机 器 现在 成 
为 一 个 紧密 结合 的 智能 网 络 的 组 成 部 分 ， 这 个 网 络 被 构建 用 来 让 关键 信息 实现 安全 的 自 
动 化 传输 ， 以 对 性 能 问题 进行 预测 。 这 意味 着 及 时 省 下 来 的 数 千 亿美 元 和 各 大 行业 可 利 
用 的 资源 。 

例如 ， 很 多 时 候 停 电 事故 得 不 到 修复 ， 有 时 长 达 数 周 时 间 ， 这 是 因为 线路 断 开 的 地 
点 无 法 被 立刻 获知 ， 或 是 因为 系统 需要 进行 大 规模 的 检修 而 发 生 故 障 的 部 位 可 能 位 于 世 
界 的 另 一 侧 。 然 而 ， 在 工业 互联 网 中 ， 从 发 电 的 巨大 机 器 到 电线 杆 上 的 变压器 ， 一 切 都 
可 以 连接 到 互联 网 上 ， 从 而 提供 状态 更 新 和 性 能 数据 。 由 此 ， 维 修 人 员 可 以 在 潜在 问题 
造成 公司 损失 数 百 万 或 数 十 亿美 元 ， 并 在 浪费 客户 时 间 之 前 抢先 采取 行动 ， 他 们 将 能 够 
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预测 哪儿 出 了 错 ， 并 准备 好 修复 所 需 的 零 部 件 。 

工业 互联 网 的 应 用 能 够 帮助 中 国 的 航空 、 电 力 、 铁 路 、 医 疗 、 石 油 天 然 气 等 主要 行 
业 实 现 生 产 率 提升 1% ,在 未 来 15 年 将 有 潜力 让 这 些 行业 节省 成 本 约 240 亿美 元 。 当 然 ， 
要 做 到 这 些 ， 不 仅 需要 充分 利用 大 数据 ， 还 需要 建立 正确 的 连接 让 大 数据 为 我 们 服务 。 

专家 提醒 

机 器 分 析 为 分 析 流 程 开辟 新 维度 ， 各 种 物理 方式 的 结合 、 行 业 特 定 领 域 的 专业 知识 、 信 
息 流 的 自动 化 与 预测 能 力 相互 结合 可 与 现 有 的 整套 “大 数据 ”工具 联手 合作 。 最终， 工业 互 
联网 将 涵盖 传统 方式 与 新 的 混合 方式 ， 通 过 先进 的 特定 行业 分 析 ， 充 分 地 利用 历史 与 实时 
数据 。 


11.1.2 ”生产 制造 业 如 何 利用 大 数据 


如 今 ， 大 数据 已 经 带 来 以 下 场景 。 

场景 1: 通信 公司 可 以 根据 你 习惯 阅读 手机 报 的 时 间 来 不 断 调整 发 送 时 间 。 

场景 2: 午餐 时 ， 餐 厅 也 会 分 析 你 的 偏好 和 需要 来 管理 和 优化 原料 的 供应 。 

场景 3: 超市 也 会 根据 商品 销售 的 关联 分 析 来 不 断 调整 货架 ， 让 你 更 容易 发 现 和 购 
买 所 需 的 商品 。 

这 些 都 是 大 数据 时 代 的 典型 商业 智能 应 用 。 机 械 制 造 业 是 最 早 开始 走 上 信息 化 道路 
的 行业 之 一 ， 其 业务 信息 化 系统 已 经 趋 于 完善 ， 而 随 着 业务 系统 的 完善 ， 也 随 之 带 来 了 
一 个 问题 ， 以 TB 级 增长 的 数据 如 何 “消化 "， 如 何 让 这 些 数据 返 过 来 促进 业务 的 创新 ? 

笔者 认为 ， 在 大 数据 时 代 ， 全 球 工业 系统 与 高 级 计算 、 分 析 、 传 感 技术 及 互联 网 将 
会 进行 高 度 融 合 。 工 业 互联 网 将 利用 数据 来 连接 智能 机 器 ， 并 最 终 将 人 机 连接 ， 结 合 软 
件 和 大 数据 分 析 ， 重 构 全 球 工业 ， 激 发 生产 率 ， 让 世界 发 展 更 快速 、 更 安全 、 更 清洁 且 
更 经 济 。 

实际 上 ， 很 少 有 企业 是 因为 单纯 的 积累 数据 而 了 解 大 数据 ， 更 多 的 动力 依然 是 来 自 
业务 需求 ， 也 就 是 利益 的 需求 。 大 数据 分 析 可 以 让 机 械 制造 业 的 各 个 部 门 的 数据 得 到 充 
分 的 利用 ， 如 表 11-1 所 示 。 


表 11-1 大 数据 分 析 在 机 械 制 造 业 各 个 部 门 的 应 用 


企业 部 门 主要 应 用 
财务 部 门 可 以 牵头 建立 成 本 控制 体系 ; 生产 部 门 可 以 牵头 建立 KPI (Key 
财务 部 门 Performance Indicator, 企业 关键 绩效 指标 ) 体系 ; 以 及 信息 管理 部 门 牵 头 建立 


数据 仓库 ， 支 持 KPI 体系 和 成 本 控制 体系 等 的 平台 ; 还 有 人 力 资 源 、 供 应 链 
等 各 个 部 门 都 可 以 在 已 有 的 数据 上 做 出 更 多 的 业务 创新 


续 表 

企业 部 门 主要 应 用 

生产 部 所 要 解决 的 问题 不 仅 是 对 流程 、 业 务 、 订 单 、 事 务 等 的 规范 化 管理 ， 还 
要 对 产生 的 数据 进行 进一步 的 分 析 ， 以 进一步 实现 业务 流程 优化 。 如今, 很 多 
企业 都 在 强调 创新 、 高 效 , 但 如 果 没 有 一 个 统一 的 数据 分 析 平 台 ， 生产 部 门 就 
生产 部 门 ”| 依然 会 陷入 处 理 各 种 报表 的 琐碎 业务 中 ， 没 有 时 间 去 考虑 创新 和 高 效 。 因 此 ， 
利用 数据 分 析 平 台 不 仅 能 够 连接 各 类 主流 数据 库 ， 还 可 以 支持 多 种 数据 来 源 ， 
保证 了 数据 分 析 的 完整 性 , 再 利用 多 种 数据 分 析 手 段 挖 掘 数 据 的 价值 ， 从 而 让 
生产 部 门 发 挥 出 更 大 的 创新 价值 


信息 部 门 需要 一 个 支撑 的 平台 , 这 类 需求 是 明显 的 商业 智能 的 需求 , 需要 利用 
大 数据 分 析 产 品 来 实现 对 于 多 业务 系统 数据 的 整合 , 同时 根据 各 业务 部 门 的 需 
要 定制 报表 , 通过 条 件 参 数 来 实现 自动 刷新 报表 数据 的 功能 。 大 数据 分 析 平 台 
信息 部 门 “| 能 够 与 各 业务 平台 进行 良好 的 集成 应 用 ,这样 可 以 为 企业 量 身 定制 辅助 决策 体 
系 , 以 图 表 并 举 的 方式 将 全 面 的 数据 分 析 结 果 呈 现 给 管理 者 , 也 可 以 免除 基层 
工作 人 员 大 量 的 手工 工作 , 同时 也 能 及 时 、 准确 地 将 数据 以 各 部 门 所 要 的 形式 
呈现 出 来 


事实 上 ， 无 论 是 哪个 领域 的 应 用 ， 都 是 通过 对 多 维 数据 库 的 旋转 、 切 片 、 钻 取 、 多 
维度 切换 等 手段 进行 分 析 ， 从 而 使 各 管理 人 员 或 业务 人 员 能 够 真正 将 主要 精力 从 “手工 
劳动 ”生成 报表 或 报告 转移 到 应 用 先进 的 手段 去 发 现 问题 ， 解 决 问题 上 来 。 

专家 提醒 

信息 化 产业 的 关键 是 从 许多 来 自 企 业 不 同 的 运作 系统 的 数据 中 提取 出 有 用 的 数据 并 进 
行 清理 ， 以 保证 数据 的 正确 性 ， 然 后 经 过 抽取 ( Extraction )、 转 换 ( Transformation ) 和 装载 
(Load )， 即 ETL 过 程 ， 合 并 到 一 个 企业 级 的 数据 仓库 里 ， 从 而 得 到 企业 数据 的 一 个 全 局 视 
图 ， 在 此 基础 上 利用 合适 的 查询 和 分 析 工 具 、 数 据 挖 气 工 具 、OLAP 工具 等 对 其 进行 分 析 和 
处 理 ( 这 时 信息 变 为 辅助 决策 的 知识 )， 最 后 将 知识 呈现 给 管理 者 ， 为 管理 者 的 决策 过 程 提 
供 支持 。 其 中 ，ETL 是 负责 完成 数据 从 数据 源 向 目标 数据 仓库 转化 的 过 程 ， 是 实施 数据 仓库 
的 重要 步骤 。 


11.2 ” 生 疡 制造 业 大 数 据 应 用 案例 


中 国 是 制造 大 国 ， 但 还 不 是 制造 强国 。 目 前 ， 我国 制造 业 的 持续 发 展 面临 诸多 问题 。 
例如 ， 资 源 环境 的 制约 异常 突出 ， 产 业 发 展 乏 力 ， 产 业 技术 创新 能 力 薄 弱 ， 产 业 结构 调 
整 的 任务 非常 艰巨 ， 发 展 方式 转变 十 分 困难 。 要 实现 由 制造 大 国 向 制造 强国 的 转变 ， 加 
快 发 展 先进 制造 业 势 在 必 行 ， 而 大 数据 就 是 最 好 的 帮手 。 本 节 主 要 介绍 生产 制造 业 大 数 
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据 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价值 。 
11.2.1 【案例 】 大 数据 结合 ERP 助力 生产 


笔者 的 好 友 王 贵 是 一 家 家 具 生 产 公 司 的 老板 ， 在 笔者 刚 接触 到 “大 数据 ”这 一 概念 
时 ， 就 曾 与 他 公开 交流 过 大 数据 的 应 用 方式 。 如 今 ， 王 贵 在 操心 业务 的 同时 ， 也 知道 必 
须要 更 好 地 利用 信息 化 系统 ， 这 样 才 能 更 好 地 完成 任务 。 

近日 ， 王 贵 正在 想 办 法 提高 各 生产 线 的 效率 ， 使 计划 生产 达到 80% 而 不 是 现在 的 
60%。 要 达到 这 一 目的 ， 王 贵 首先 必须 知道 各 个 生产 线 的 生产 状况 ， 然 后 可 以 随时 对 生 
产 线 做 出 调整 。 其 实 王 贵 也 没有 想 让 所 有 生产 线 满 负 荷 运转 ， 因 为 他 很 清楚 那 是 无 法 实 
现 的 。 

但 计划 生产 达到 80%, 甚至 再 低 一 点 70% 是 完全 可 以 实现 的 , 而 且 也 会 在 很 大 程度 
上 提高 生产 效率 ， 从 而 为 企业 增加 利润 。 

据 笔者 了 解 ， 王 贵 所 在 的 企业 是 一 家 典型 的 多 品种 、 小 批量 、 根 据 订 单 生产 的 生产 
制造 型 企业 。 两 年 前 ， 颇 具 科技 头脑 的 王 贵 就 开始 应 用 企业 资源 计划 系统 ( Enterprise 
Resource Planning, ERP ) 建立 起 了 合理 、 高 效 的 生产 计划 编制 体系 , 消灭 了 信息 孤岛 ， 
基本 实现 了 数据 共享 。 另 外 ， 王 贵 利用 该 系统 使 生产 、 采 购 、 销 售 、 库 存 等 环节 连接 成 
了 一 个 整体 , 这 在 很 大 程度 上 解决 了 以 往 由 于 信息 不 匹配 造成 的 影响 , 甚至 是 经 济 损失 。 

虽然 企业 利用 ERP 系统 解决 了 很 多 采购 、 生 产 等 环节 出 现 的 问题 ， 提 高 了 订单 交 
付 的 及 时 率 、 准 确 率 ， 同 时 也 提高 了 客户 的 满意 度 。 但 是 ， 王 贵 还 是 忧心 避 促 ， 主 要 是 
因为 企业 的 品种 多 而 杂 , 而 且 订 单 随时 性 很 强 , 经 常会 出 现 临时 加 单 、 订 单调 整 的 情况 ， 
让 企业 措手不及 。 同 时 ， 王 贵 还 要 清楚 地 了 解 退货 情况 ， 具 体 原因 是 什么 等 信息 ， 这 让 
他 的 工作 量 不 断 加 大 。 

另外 ， 王 贵 还 要 想 办 法 掌握 一 些 重要 信息 ， 例 如 ， 该 通过 什么 样 的 方式 了 解 订单 的 
趋势 ， 提 前 做 好 准备 ; 通过 多 种 维度 去 分 析 退 货 的 情况 和 原因 ， 同 时 采取 措施 降低 退货 
率 。 平 时 ， 这 些 信 息 也 要 花费 很 大 的 精力 和 很 长 的 时 间 去 统计 ， 让 本 来 就 繁重 的 工作 又 
增加 了 更 繁琐 的 工作 内 容 。 

【 案例 解析 ]， 笔 者 认为 ， 如 果 企 业 规模 还 很 小 ， 几 个 人 当面 沟通 就 能 搞 清 楚 全 部 
状况 时 ， 可 能 不 会 需要 ERP 系统 。 但 除非 企业 不 想 再 继续 成 长 ， 否 则 从 整体 策略 的 角 
度 ， 重 新 规划 企业 资源 运用 方式 与 营运 模式 ， 并 据 此 导入 ERP 系统 ， 并 顺势 采取 合理 
化 、 标 准 化 的 步骤 ， 会 是 任何 一 个 有 追求 发 展 的 企业 管理 者 的 必然 选择 。 

ERP 系统 是 事务 性 处 理 系统 ， 它 解决 了 多 个 子 系统 之 问 的 数据 流转 的 问题 ， 每 个 环 
节 的 工作 人 员 通 过 处 理 不 同 的 单据 来 记录 整个 过 程 所 发 生 的 数据 。 然 而 ，ERP 系统 却 也 
存在 一 些 不 足 之 处 : 

> ”数据 深层 次 的 信息 却 没 有 被 挖掘 出 来 。 


> ”ERP 系统 的 操作 大 多 面向 基层 人 员 ， 以 业务 操作 为 主 。 

> ”如 果 作为 管理 者 使 用 ，ERP 系统 的 易 用 性 又 不 够 ， 而 他 们 又 是 最 需要 利用 数据 来 

进行 辅助 决策 的 。 

在 本 案例 中 ， 对 于 像 王 贵 这 种 中 层 甚 至 高 层 使 用 者 来 讲 ， 需 要 为 他 们 提供 一 套 操作 
简单 、 内 容 全 面 的 数据 分 析 平台 ， 作 为 ERP 系统 和 管理 者 之 间 的 桥梁 ， 如 图 11-3 所 示 。 
只 有 利用 这 样 的 系统 ， 才 能 让 他 们 摆脱 目前 的 状况 ， 最 好 的 办 法 就 是 通过 信息 化 的 方式 
来 帮助 他 们 去 完成 这 些 工作 ， 提 高 工作 效率 ， 也 为 决策 提供 依据 ， 从 而 也 使 他 们 有 更 多 
的 时 间 和 精力 去 研究 部 门 现状 ， 剖 析 企 业 问题 ， 从 而 更 好 地 实现 创新 发 展 企业 的 目的 。 


自动 核准 订单 


图 11-3 用 数据 连接 各 个 系统 


同时 ， 笔 者 预计 ， 在 未 来 的 几 年 内 ， 将 会 有 为 数 不 少 的 企业 进入 大 数据 市 场 ， 这 个 
市 场 的 竞争 也 将 更 加 激烈 。 


11.2.2 【案例 】 大 数据 改变 福特 汽车 的 制造 


过 去 十 年 ， 福 特 公司 经 历 了 一 个 非常 困难 的 时 期 ， 当 时 福特 失去 了 近 半 数 的 员工 ， 
整个 公司 濒临 灭亡 。 因 此 ， 早 在 20 世纪 90 年 代 ， 福 特 公司 就 已 经 开始 认真 考虑 是 否 使 
用 数据 分 析 工 具 ， 当 时 服务 器 和 存储 越 来 越 便宜 ， 很 多 华尔街 的 公司 都 在 向 世界 展示 利 
用 数据 建 模 可 以 实现 什么 。 

福特 公司 内 部 开始 出 现 各 种 分 析 小 组 ， 包 括 Ginder 研究 中 心 小 组 、 市 场 部 单独 的 
小 组 、 福 特 信贷 ( FordCredit ) 部 门 的 小 组 。 尽 管 如 此 ， 所 有 这 些 分 析 小 组 都 把 精力 集 
中 在 一 些 非 常 具 体 的 任务 上 ， 例 如 福特 信贷 部 门 的 风险 分 析 ， 或 者 像 研究 中 心 那样 做 更 
为 抽象 的 科学 工作 ， 而 且 这 些 都 被 称 之 为 核心 的 业务 驱动 力 。 

福特 公司 的 大 数据 分 析 负 责 人 John Ginder 在 福特 研究 中 心 ( Ford Research ) 管 
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理 着 系统 分 析 和 环境 科学 ( Systems Analytics and Environmental Sciences ) 团队 。 与 
此 同时 ， 另 一 个 因素 开始 发 挥 作用 一 一 新 任 CEO 的 到 来 。2006 年 ， 新 的 首席 执行 官 
AlanMulally 来 到 福特 , 每 周 他 都 要 与 手 里 拿 着 各 种 图 表 的 直接 汇报 人 开会 , 并 经 过 层 层 
细 化 ， 鼓 励 公司 内 部 使 用 数据 驱动 的 方法 ， 他 影响 了 整个 福特 的 管理 文化 。 

福特 的 另外 一 个 重要 的 大 数据 资产 来 自 福特 产品 开发 流程 和 产品 本 身 产生 的 大 量 
有 用 数据 。 福 特 内 部 产生 的 大 量 数据 ， 包 括 来 自 业 务 运营 、 汽 车 产品 研究 活动 以 及 互联 
网 上 的 客户 数据 ， 所 有 这 些 数据 对 于 福特 来 说 意味 着 巨大 的 商机 ， 但 是 福特 需要 新 的 专 
业 技 术 和 平台 来 管理 这 些 数据 。 福 特 的 研究 部 门 正在 测试 Hadoop 系统 ， 试 图 整合 手头 
拥有 的 所 有 数据 源 。 

福特 的 制造 工厂 以 及 汽车 产品 都 安装 了 各 种 测量 仪表 ， 它 们 都 是 闭合 的 控制 系统 。 
每 辆 汽车 中 也 安装 有 大 量 传感器 ， 但 目前 这 些 数据 都 还 停留 在 汽车 内 部 ， 但 是 Ginder 
认为 采集 这 些 数 据 ， 包 括 车 辆 运行 状况 和 消费 者 操控 汽车 方式 的 数据 ， 并 将 这 些 数据 分 
析 后 反馈 给 设计 流程 将 非常 有 助 于 优化 用 户 体验 。 

除了 采集 结构 化 数据 进行 分 析 外 ， 福 特 还 将 触角 伸 向 了 非 结 构 化 的 消费 者 情报 数 
据 。 虽 然 不 少 财富 500 强 企业 也 在 进行 类 似 的 社会 化 分 析 ， 但 是 福特 分 析 Web 非 结构 
化 数据 的 方法 与 众 不 同 , 该 方法 甚至 能 够 影响 到 公司 对 汽车 产品 销售 业绩 的 预测 。 例如 ， 
福特 使 用 Google Trends ( 如 图 11-4 所 示 ) 来 监测 搜索 关键 词 的 流行 度 ， 帮 助 企业 做 出 
内 部 销售 预测 。 


区 域 热度 

pe 次 级 区 域 | 都 市 图 | 城市 
密西西比 州 100 mm 
内 华 达 75 mm 
奥 克 拉 茶 马 72 me 
肯 措 基 州 65 mm 
德 克 萨 斯 放 65 ga 
加 利 福 尼 亚 放 63 “mm 
纽约 州 57 = 

， 要 看 一 民间 内 的 热度 灾 化 全 说 入 度 入 


11-4 ”Google Trends 的 区 域 热度 分 析 
在 Ginder 的 眼 里 ， 福 特 的 大 数据 分 析 还 只 是 “皮毛 功夫 "， 因 为 大 数据 分 析 工 具 目 
前 并 不 成 熟 。 虽 然 能 够 洞 见 大 数据 的 未 来 ， 但 是 Ginder 认为 现实 和 未 来 还 有 相当 的 落 
差 。 "大 数据 的 未 来 很 美妙 ， 不 过 我 们 现在 的 问题 是 专业 人 才 和 工具 都 很 缺乏 。 虽 然 我 


们 有 自己 的 专家 ， 可 以 利用 目前 的 大 数据 工具 开发 一 些 大 数据 应 用 解决 具体 业务 问题 。 
但 是 将 来 我 希望 能 把 大 数据 分 析 扩展 到 所 有 数据 ， 届 时 数据 专家 一 一 而 不 是 电脑 专家 ， 
能 充分 发 掘 大 数据 的 商业 价值 。 

在 Ginder 的 眼 里 ， 福 特 的 大 数据 未 来 还 意味 着 数据 的 开放 ， 福 特 将 与 开源 社区 大 
量 分 享 自己 的 数据 ， 造 福 社会 。 不 久 前 福特 的 硅谷 实验 室 ( SVL ) 正式 揭幕 ， 其 定位 是 
“大 数据 、 开 源 创 新 和 用 户 体验 "。 现 在 ， 分 析 已 经 深入 福特 公司 的 文化 当中 ， 大 数据 
分 析 的 兴起 ， 为 这 家 汽车 制造 商 带 来 了 全 新 的 机 遇 。 

专家 提醒 

例如 ， 福 特产 品 开发 团队 曾经 对 SUV 是 否 应 该 采取 掀 背 式 ( 即 手动 打开 车 后 行李 箱 车 
门 ) 或 电动 式 进行 分 析 。 如 果 选 择 后 者 ， 门 会 自动 打开 ， 便 捷 又 智能 ; 但 这 种 方式 会 出 现 车 
门 开启 有 限 的 问题 。 此 前 采用 定期 调查 的 方式 并 没有 发 现 这 个 问题 ， 但 后 来 根据 对 社交 媒体 
的 关注 和 分 析 ， 发 现 很 多 人 都 在 谈论 这 些 问题 。 

【 案例 解析 】])， 当 问 起 汽车 的 制造 过 程 ， 大 多 数 人 脑子 里 随即 浮现 的 是 各 种 生产 装 
配 流水 线 和 制造 机 器 。 然 而 在 本 案例 中 ， 福 特 在 产品 的 研发 设计 阶段 ， 大 数据 就 已 经 对 
汽车 的 部 件 和 功能 产生 了 重要 影响 。 

笔者 发 现 ， 福 特 目 前 主要 依赖 开源 工具 如 Hadoop 来 管理 大 数据 集 ， 并 通过 
R-Project ( 另外 一 个 开源 数据 分 析 工具 ) 来 进行 统计 分 析 ， 此 外 数据 挖掘 和 文本 挖掘 使 
用 的 也 都 是 开源 工具 。 

虽然 开源 大 数据 工具 非常 强大 ， 可 扩展 性 也 很 好 ， 但 是 只 有 高 水 平 的 数据 分 析 专 家 
和 程序 员 才能 使 用 。 此 外 ， 大 数据 的 一 个 大 趋势 是 ， 非 技术 人 员 也 将 能 通过 自然 语言 
具 访 问 大 数据 集 。 未 来 的 “数据 科学 家 ”不 是 懂得 如 何 书写 合乎 规范 的 SQL 查询 语句 的 
人 ， 而 是 知道 如 何 提出 正确 问题 的 业务 分 析 师 ， 只 有 他 们 能 够 发 现 影响 公司 决策 的 “ 数 
据 珠宝 "。 


11.2.3 【案例 】 长 安 汽车 数据 与 制造 的 结合 


长 安 汽车 充分 把 握 了 我 国 西部 大 开发 和 WTO 带 来 的 双重 发 展 机 遇 ， 以 先进 的 信息 
技术 全 面 提升 了 公司 的 信息 技术 应 用 水 平 ， 锻 造 出 企业 的 核心 竞争 力 。 作 为 中 国 汽车 行 
业 的 排头 兵 之 一 ， 长 安 汽车 的 信息 化 建设 同样 有 不 俗 的 表现 。 从 20 世纪 90 年 代 初 踏 上 
信息 化 之 路 以 来 ， 如 今 长 安 汽车 已 经 在 研发 、 生 产 、 销 售 各 个 环节 应 用 了 信息 化 系统 ， 
实现 了 信息 化 对 业务 的 全 面 支撑 。 

2000 年 是 长 安 汽车 信息 化 建设 的 一 个 分 水 岭 。 随 着 国内 车 市 空前 繁荣 , 长 安 的 面前 
既 有 危及 存亡 的 竞争 压力 ， 又 有 跳跃 式 发 展 的 巨大 商机 。 在 这 种 机 遇 与 挑战 下 ， 汽 车 企 
业 必 须 采 用 全 球 化 的 、 灵 活 的 电子 商务 供应 链 模式 ， 通 过 完整 、 集 成 的 信息 化 平台 强化 
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汽车 企业 在 速度 、 创 新 、 出 色 的 客户 关怀 以 及 整个 供应 链 协 同方 面 的 突出 能 力 ， 从 而 在 
本 土 竞争 中 立 于 不 败 之 地 , 并 谋求 在 世界 范围 内 做 大 做 强 。 同 时 ， 因 为 业务 战略 的 转变 ， 
长 安 汽车 此 前 建立 的 38 个 不 同 的 信息 系统 开始 无 法 满足 新 的 需求 。 为 了 长 安 汽车 未 来 
的 发 展 ， 企 业 高 层 决定 将 信息 化 迁移 到 更 大 的 平台 。 

2001 年 ,长 安 汽车 与 Oracle( 甲骨 文 ) 公 司 确定 了 战略 合作 伙伴 关系 ,应 用 了 Oracle 
的 ERP、e-HR、CRM 等 系统 ， 并 与 Oracle 的 支持 服务 部 门 建立 了 长 期 的 合作 伙伴 关 
系 。 通 过 与 Oracle 的 合作 , 让 长 安 汽车 更 加 确信 采用 “一 线 贯通 ”的 方式 建设 信息 化 符 
合 其 战略 发 展 方向 。 

长 安 汽车 在 国内 外 有 众多 的 产业 基地 、 分 / 子 公 司 ， 对 应 的 信息 系统 相当 庞大 。 在 现 
代 企业 竞争 中 数据 的 力量 不 容 小 凯 ， 信 息 系统 里 流 消 的 数据 ， 对 于 企业 来 说 如 同人 的 血 
液 一 样 重要 。 总 结 起 来 ， 应 该 说 长 安 采 用 的 是 “一 线 贯通 ”的 方法 来 实现 企业 信息 化 ， 
其 对 未 来 的 企业 平台 架构 、 运 营 成 本 及 推进 一 体 化 管理 都 有 很 好 的 用 处 。 

长 安 汽车 董事 及 副 总 裁 马 军 使 用 最 多 的 一 个 词 也 是 “数据 "。 他 认为 ,“ 作 为 一 个 企 
业 ， 重 要 的 是 你 知 不 知道 你 下 面 的 数据 ， 知 不 知道 数据 形成 的 业绩 与 竞争 对 手 的 数据 差 
异 在 哪里 。” 

在 以 往 ， 长 安 所 有 产品 的 开发 数据 、 工 业 数 据 、 制 造 数据 由 不 同 部 门 各 自分 管 ， 导 
致 从 研发 到 生产 数据 并 不 唯一 ,系统 之 间 的 关联 性 也 不 强 。 为 此 ,长 安 建 起 了 一 套 以 PDM 
系统 为 核心 的 全 球 在 线 研 发 平台 ， 把 数据 源 打通 ， 使 所 有 数据 在 同一 个 链条 上 互动 ， 优 
化 了 在 线 协 同 研发 机 制 。 

长 安 汽车 使 用 信息 系统 之 后 ， 企 业 得 到 的 是 一 个 数据 链 ， 从 原来 点 的 数据 到 线 的 数 
据 到 一 个 数据 链 的 数据 。 有 了 数据 链 , 企业 可 以 系统 地 去 和 竞争 对 手 ， 和 行业 进行 比较 ， 
甚至 和 国外 的 先进 的 汽车 企业 作 比 较 。 如 果 没 有 这 些 数据 ， 企 业 在 做 竞争 策略 时 只 能 凭 
感觉 和 经 验 。 

2010 年 ， 长 安 汽车 预计 产销 汽车 185 万 辆 以 上 ， 销 售 收入 达到 1 千 亿 以 上 ， 这 其 
中 信息 化 功 不 可 没 。 对 于 成 本 控制 、 物 料 管理 、 差 异 分 析 和 风险 分 析 ， 信 息 化 发 挥 了 重 
要 的 角色 。 长 安 汽车 正在 按照 新 的 发 展 规划 ， 部 署 新 的 IT 运营 ， 来 配合 业务 的 快速 成 长 
和 发 展 需求 。 

信息 化 本 身 是 一 个 持续 不 断 的 过 程 。 在 这 个 过 程 中 ， 不 断 有 问题 出 现 并 需要 解决 。 
在 取得 了 诸多 成 绩 的 同时 ， 长 安 汽车 信息 化 同样 面临 着 挑战 。 

目前 ， 长 安 汽车 挑战 来 自 以 下 两 个 方面 : 

( 1 ) 如 何 保证 信息 的 安全 与 共享 ? 随 着 软件 应 用 越 来 越 多 ， 运 用 范围 越 来 越 广 ， 
信息 安全 成 为 一 个 重要 问题 。 长 安 汽车 信息 系统 采用 的 是 集中 管理 的 方式 ， 如 果 发 生 信 
息 泄露 就 是 大 问题 。 而 如 果 不 集中 管理 就 不 能 共享 ， 不 能 共享 则 造成 成 本 升 高 以 及 绩效 
评价 的 不 公平 。 这 一 矛盾 对 长 安 汽车 信息 化 形成 了 挑战 。 


( 2 ) 如 何 保障 24 小 时 的 运营 ? 对 于 这 个 问题 ， 长 安 汽车 目前 是 “两 地 三 灾 备 ”的 
策略 ， 即 同城 有 两 个 灾 备 中 心 ， 异 地 有 一 个 灾 备 中 心 。 如 何在 全 国 11 个 城市 去 部 署 运 
用 ， 是 长 安 汽车 的 另 一 大 挑战 。 

通过 数据 平台 ， 长 安 汽车 解决 了 全 球 共享 单一 数据 源 、 提 供 实时 准确 的 数据 、 支 撑 
五 国 九 地 、7 x 24 小 时 在 线 协 同 研发 等 问题 。 同 时 ， 通 过 数字 化 设计 和 制造 仿真 分 析 ， 
提前 发 现 问题 ， 以 减少 后 期 变更 成 本 ， 减 少 实物 验证 次 数 。 在 抓 住 了 数据 源 之 后 ， 长 安 
信息 管理 部 把 研发 部 分 的 成 本 控制 在 了 原来 的 80% 上 下 ，, 协同 效率 的 提升 更 使 得 生产 等 
环节 的 成 本 得 到 控制 。 


专家 提醒 

很 多 企业 的 数据 是 不 对 称 的 ， 如 果 数 据 在 流转 的 过 程 中 出 现 人 为 加 工 修改 ， 就 会 为 企业 
决策 带 来 很 大 的 潜在 风险 。 拥有 数据 ， 才 能 与 竞争 对 手 对 比 。 信 息 系 统 保证 了 数据 的 透明 与 
规范 ， 让 数据 呈现 在 所 有 应 该 共享 的 人 面前 。 

首先 ， 信 息 系 统 带 来 了 数据 的 对 称 ， 同 一 系统 中 授权 一 致 的 人 会 看 到 相同 的 信息 ， 谁 也 
没 办 法 隐藏 信息 ， 它 是 透明 的 。 同 时 ， 数 据 的 对 称 规范 了 管理 ， 如 果 没 有 数据 ， 想 做 到 精益 
管理 基本 是 空谈 。 当 然 ， 做 到 数据 的 透明 规范 与 共享 ， 最 终 的 目的 还 是 实现 企业 整体 效率 的 
提升 。 

2010 年 10 月 31 日 , 长 安 汽车 发 布 了 全 新 的 品牌 标识 , 并 宣布 2020 年 的 战略 目标 
是 实现 年 产销 600 万 辆 ， 成 为 世界 级 的 汽车 企业 。 在 2013 年 上 半年 ， 长 安 集团 实现 了 
营业 收入 197.51 亿 元 ， 同 比 增 长 达到 40.63%， 其 中 汽车 制造 业务 整体 的 毛利 率 达 到 
16.43%， 比 2012 年 同期 提高 了 0.9% ， 而 产品 毛利 的 提升 主要 就 来 自 于 产品 结构 的 优 
化 及 持续 的 成 本 控制 。 

【 案例 解析 】， 信息 化 建设 对 于 现代 化 企业 来 说 是 一 场 挑战 ， 而 这 场 挑战 的 核心 内 
容 便 是 数据 应 用 。 越 来 越 多 的 企业 开始 重视 以 数据 为 核心 的 信息 化 建设 整合 ， 其 中 数据 
恢复 被 认为 是 最 重要 也 是 最 容易 被 忽视 的 环节 之 一 。 

在 本 案例 中 ， 总 的 来 看 长 安 汽车 选择 Oracle 是 因为 Oracle 在 互联 网 领域 的 成 功 经 
验 和 数据 库 基础 .引领 行业 的 技术 把 握 能 力 和 前 瞻 性 以 及 良好 的 品牌 形象 与 服务 。Oracle 
是 第 一 家 将 应 用 软件 产品 向 互联 网 演进 的 软件 公司 ， 全 球 财富 500 强 中 ，96% 的 企业 都 
不 约 而 同 地 采用 了 Oracle 大 数据 解决 方案 ， 以 Oracle 技术 产品 和 解决 方案 作为 信息 系 
统 建设 的 标准 。 

另外 , 长 安 在 建 立 电子 商务 交易 平台 和 营销 方面 , 也 是 借助 了 Oracle 领先 的 技术 优 
势 和 丰富 的 实践 经 验 。 总 之 ， 数 据 信息 为 “ 虚 "， 生 产 制造 为 “ 实 ",“ 虚 "、“ 实 ”结合 
推动 着 长 安 集团 的 管理 提升 和 成 本 控制 。 笔 者 也 拭目以待 , 看 长 安 汽车 与 Oracle 继续 长 
远 而 密切 的 合作 ， 将 创造 更 多 的 收益 ， 获 取 更 长 远 的 发 展 。 


. . 施 噬 才 


Mh 
省 
量 
到 
准 


[a ap, : 
8 | -4 放 芝 0 .i 盖 雹 


醒 杜 将 闸 新 三 . . 询 距 才 


,| THESHSA .WE 者 


11.2.4 【案例 】 乐 百 氏 BI 系统 助力 企业 成 长 


乐 百 氏 集 团 是 闻名 全 国 的 大 型 食品 饮料 企业 ， 中 国 饮料 工业 十 强 企业 之 一 ， 公 司 目 
前 在 全 国 的 布局 为 5 个 事业 部 ， 数 千 销售 人 员 ， 管 理 全 国 约 300000 个 销售 终端 。 

2006 年 ， 随 着 乐 百 氏 的 “战线 ”发 展 越 来 越 长 ， 业务 员 提 交 的 销售 报表 格式 越 来 越 
繁杂 ， 需 要 投放 促销 资源 的 点 越 来 越 多 ， 集 团 公司 管理 层 的 脑袋 也 随 之 越 来 越 大 。 成 立 
信息 化 部 门 以 及 构建 BI 系统 迫在眉睫 。 

2006 年 2 月 ， 乐 百 氏 挑 了 几 名 IT 助手 ， 拉 起 一 支 全 职 的 项 目 队伍 ， 开 始 跑 分 公司 
进行 需求 分 析 ， 准 备 建立 一 套 完善 的 市 场 分 析 系统 。 由 于 必须 先 从 市 场 上 拿 到 指定 的 数 
据 ,， 才 能 用 于 数据 分 析 ， 乐 百 氏 决 定 与 明基 逐鹿 合作 来 完成 企业 BI 系统 的 构建 ， 并 将 项 
目 分 为 数据 采集 与 数据 分 析 两 个 阶段 。 


专家 提醒 
明基 逐鹿 (BenQ Guru ) 是 中 国 领先 的 IT 技术 、 顾 问 服务 、 业 务 流程 外 包 解 决 方案 提供 
商 ， 旨 在 将 明基 集团 20 多 年 全 球 管理 运营 经 验 与 在 数 百 家 知 名 企业 累计 的 管理 真知 ， 通 过 
greenOffice、eHR、SCM、MES 规划 实施 及 IT Service 分 享 给 国内 快速 成 长 的 企业 客户 。 


1.， 数据 采集 

在 乐 百 氏 的 经 营 过 程 中 ， 数 据 采集 的 关键 指标 很 明确 ， 如 各 销售 网 点 的 销售 情况 、 
库存 情况 、 大 超市 的 各 项 费用 等 ， 这 些 数据 通过 分 公司 或 办 事 处 录入 到 系统 中 ， 定 时 回 
传 到 总 部 ， 然 后 由 明基 逐鹿 把 这 些 数据 制作 成 指定 的 分 析 报 表 。 

逐鹿 商业 智能 解决 方案 为 其 深度 分 销 体系 的 监控 与 管理 提供 了 重要 保障 。 方 案 实 施 
后 ， 无 论 是 渠道 、 组 织 、 人 员 、 终 端 、 终 端 销售 状况 、 市 场 状况 、 费 用 状况 、 库 存 状 况 、 
客户 状况 等 信息 ， 都 能 够 通过 企业 绩效 管理 门户 实时 查询 与 分 析 ， 辅 助 管理 者 将 “以 售 
点 为 本 ”的 渠道 管理 策略 执行 到 位 。 

通过 BI 系统 ， 乐 百 氏 总 部 管理 层 可 以 轻易 调 出 零售 店 的 数据 、 经 销 商 的 数据 ， 了 解 
各 分 店 的 进货 量 、 销 售 代表 业绩 及 产品 市 场 表 现 。 

2. 数据 分 析 

提高 系统 的 任何 一 点 适应 性 都 需要 借助 人 力 ， 为 此 ， 乐 百 氏 和 明基 逐鹿 制定 了 一 个 
共同 目标 : 让 系统 更 好 用 一 些 ， 让 数据 在 所 有 区 域 经 理 面 前 显得 更 真实 一 些 。 

乐 百 氏 BI 系统 数据 分 析 的 核心 工作 是 设计 报表 系统 与 逻辑 。 

( 1 ) 利用 报表 系统 ， 分 析 数据 做 出 决策 。 报 表 系 统 是 综合 性 的 一 套 报 表 ， 需 要 将 
数据 信息 全 方位 展现 出 来 , 并 通过 报表 系统 将 销售 信息 分 成 多 种 维度 ,穿插 分 析 。 这 样 ， 
企业 高 层 不 仅 可 以 看 到 该 区 域 的 总 销量 ， 还 可 以 知道 哪个 客户 销售 比例 更 高 ， 如 果 这 个 
客户 连续 几 个 月 都 排 在 销售 前 三 名 ， 那 么 这 个 客户 将 是 重点 客户 ， 可 以 让 销售 代表 更 多 


地 关注 他 。 

( 2 ) 利用 数据 核对 ， 提 升 BI 系统 适应 性 。BI 系统 上 线 前 的 最 后 一 步 是 核对 数据 ， 
但 这 也 是 一 个 相对 费力 的 过 程 。 数 据 核 对 的 难处 , 一 方面 在 于 BI 所 产生 的 报表 是 多 步 运 
算得 到 的 结果 而 非 简单 的 汇总 ， 因 此 每 个 环节 的 计算 都 要 反复 核对 ; 另 一 方面 ， 数 据 核 
对 不 仅 涉及 项 目 组 成 员 ， 企 业 各 部 门 员工 都 得 参与 其 中 。 这 两 个 问题 需要 大 量 的 人 力 去 
排查 ， 从 数据 源 的 输入 ， 到 数据 的 传输 、 数 据 计算 逻辑 、 数 据 展现 ， 每 个 环节 都 不 能 忽 
略 。 经 过 大 量 的 数据 核对 ，Bl 系统 的 适应 性 得 到 进一步 提升 。 

3， 应 用 成 果 

目前 ， 乐 百 氏 的 BI 应 用 已 经 在 各 个 分 公司 全 面 上 线 ，BI 系统 产生 的 效果 逐渐 显示 
出 来 。 总 的 来 说 ，BI 系统 为 乐 百 氏 带 来 了 以 下 3 大 好 处 : 

( 1 ) 对 于 分 公司 的 基层 销售 人 员 来 说 ， 利 用 BI 系统 ， 他 们 可 以 自己 比 对 每 人 的 销 
售 业绩 ， 总 部 对 区 域 销售 业绩 的 评判 很 少 再 引发 异议 ， 从 中 发 现 不 符合 要 求 的 员工 ， 可 
以 毫 不 犹 驳 地 把 他 开除 ， 以 此 保持 企业 的 快速 增长 。 

( 2 ) 对 于 销售 点 的 铺 货 来 说 ，BI 系统 统一 了 铺 货 率 等 数据 上 报 的 标准 ， 规 定 铺 货 
必须 结合 销售 点 的 产品 品种 规格 、 陈 列 配 合 、 季 节 性 特征 等 因素 ， 确 定 销售 点 可 以 接受 
的 最 大 铺 货 量 。 无 论 是 总 部 还 是 各 区 域 经 理 ， 看 到 的 数据 是 一 致 的 、 及 时 的 ， 从 而 提高 
了 办 事 效率 。 

( 3 ) 对 于 企业 高 层 来 说 ，BI 系统 方便 了 企业 高 层 激励 考核 基层 组 织 ， 同 时 它 也 为 
企业 的 管理 、 决 策 及 预测 提供 了 数据 依据 。 

【 案例 解析 }， 在 本 案例 中 ， 乐 百 氏 手中 掌握 了 海量 的 数据 ， 同 时 拥有 多 种 工具 来 
移动 、 分 析 和 发 送 这 些 数据 ， 为 企业 的 生产 管理 、 人 事 管理 以 及 营销 策略 带 来 极 大 的 
帮助 。 

在 中 国 由 世界 制造 中 心 转型 成 为 世界 上 最 大 的 消费 市 场 的 过 程 中 ， 中 国企 业 必 须 像 
乐 百 氏 一 样 ， 挑 战 这 样 的 一 些 转型 包括 供应 链 管 理 、 产 业 链 管理 、 上 下 游 企业 之 间 的 关 
系 以 及 如 何 应 对 仓储 、 物 流 的 变化 等 。 笔 者 认为 ， 中 国 的 人 口 、 互 联网 用 户 数 及 移动 互 
联网 用 户 数 都 居 全 世界 第 一 ， 在 大 数据 时 代 ， 可 供 收 集 的 数据 将 不 再 是 瓶颈 ， 关 键 之 处 
是 如 何 树立 起 应 对 大 数据 的 意识 ， 抓 住 这 个 机 遇 。 


11.2.5 【案例 】 大 数据 可 以 破解 “ 猪 周期 ” 


如 果 你 每 天 去 菜市 场 买 菜 ， 肯 定 会 发 现 ， 近 段 时 间 以 来 ， 猪 肉 价格 持续 下 跌 。 肉 价 
跌 了 ， 市 民 的 菜篮子 是 变 轻 了 ， 但 生猪 养 猪 户 的 心情 却 变 得 沉重 了 ， 因 为 持续 下 跌 的 生 
猪 收购 价 让 部 分 养殖 户 利润 受 损 。 那 么 ， 我 们 该 如 何 正确 看 待 当前 的 肉 价 持续 走低 呢 ? 
生猪 价格 低位 运行 ， 养 殖 户 又 该 如 何 规避 风险 呢 ? 一 会 儿 猪 价 太 高 了 ，CPI 上 涨 百姓 生 
活 受到 影响 ， 到 底 该 如 何 才能 解决 “ 猪 周期 ”难题 ( 如 图 11-5 所 示 ) 呢 ? 
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猪肉 价格 下 跌 


图 11-5 “ 猪 周 期 ”难题 


1， 新 希望 结合 大 数据 和 云 计算 

新 希望 集团 是 中 国 农业 产业 化 国家 级 重点 龙头 企业 ， 中 国 最 大 的 饲料 生产 企业 和 农 
牧 企业 之 一 ， 其 拥有 中 国 最 大 的 农 牧 产业 集群 。 

针对 “ 猪 周 期 ”难题 ， 新 希望 集团 通过 把 历年 的 数据 集中 起 来 ， 建 立 一 个 动态 的 养 
殖 、 生 产 和 市 场 的 体系 。 通 过 大 数据 和 云 计算 进行 猪 周 期 的 预测 ， 发 现 猪 的 价格 波动 周 
期 有 一 定 的 规律 ， 大 概 3~ 5 年 是 一 个 完整 的 周期 ， 少 的 时 候 两 年 多 ， 多 的 时 候 5 年 多 ， 
而 这 个 周期 又 受 国家 政策 变化 、 天 气 变 化 、 传 染病 变化 、 农 民 收 入 变化 、 原 料 价格 变化 
等 多 重 因素 影响 ， 同 时 又 和 人 们 的 生活 水 准 和 购买 力 有 关系 。 

新 希望 集团 刘永好 表示 ， 如 果 全 国 所 有 养 猪 的 农户 都 通过 云 计算 、 大 数据 对 庞大 的 
数据 进行 研究 、 分 析 、 判 断 ， 研 究 出 一 个 模型 ， 建 立信 息 系统 ， 养 猪 就 会 变 得 更 加 科 
学 化 。 

2 温 氏 集团 构建 信息 中 心 

广东 温 氏 食品 集团 有 限 公 司 通过 “企业 + 农户 + 客户 ”这 一 既 分 散 又 集约 的 生产 模 
式 ， 将 分 布 在 全 国 的 8000 多 农户 “化 为 一 体 "， 户 均 年 出 栏 生猪 800 多 头 ， 企 业 年 出 栏 
生猪 约 680 万 头 ， 占 全 国 年 生猪 出 栏 数 的 1%。 

“企业 + 农户 + 客户 ”模式 是 指 ， 企 业 向 农户 提供 猪 仔 、 饲 料及 防疫 技术 ， 并 负责 
市 场 销售 ， 农 户 只 承担 养殖 风险 ， 无 论 市 场 周 期 如 何 变化 ， 农 户 获 利 始终 保持 稳定 ， 这 
在 一 定 程度 上 化 解 了 “ 猪 贵 伤 民 ， 猪 贱 伤 农 ” 的 难题 。 另 外 ， 这 种 模式 既 有 利于 帮助 农 
民 就 地 实现 就 业 ， 又 避免 大 规模 集中 养 猪 的 土地 和 环保 压力 。 

温 氏 集团 对 生猪 生产 的 安全 控制 非常 重视 ， 采 用 种 猪 统 一 培育 、 饲 料 统一 生产 、 药 
品 统一 调配 的 全 产业 链条 控制 ， 确 保 了 生猪 的 安全 健康 。 农 户 管理 员 隔 三 差 五 就 会 上 门 


D> 


对 农户 进行 指导 和 监测 ， 他 们 利用 PDA 移动 监控 系统 ， 在 农户 猪 场 就 可 以 实现 现场 信 
息 采 集 并 实时 传输 到 集团 研究 院 数据 中 心 进行 运算 分 析 ， 并 实时 提供 解决 方案 。 最 后 ， 
在 生猪 上 市 前 ， 企 业 会 对 每 个 农户 的 每 批 猪 群 都 进行 尿检 ， 合 格 之 后 才 卖 给 生猪 批发 商 
和 肉 联 厂 。 

温 氏 集团 的 研究 院 数据 中 心 ， 电 脑 上 可 以 清晰 显示 出 生猪 出 栏 价 格 的 波动 曲线 ， 
管理 者 可 以 实时 监控 全 国 8000 多 户 养 户 的 生产 和 出 栏 情况 。 

温 氏 集团 的 数据 管理 带 来 了 很 大 的 成 效 。2008 年 猪肉 价格 步 入 下 跌 区 间 , 广东 新 兴 
县 城郊 的 温 氏 签约 养 户 黄 植 强 的 养殖 规模 却 持续 扩大 ， 他 说 :“ 温 氏 的 收购 价格 基本 上 
没有 大 的 波动 ， 我 的 猪 场 增收 也 很 稳定 "。 

【 案例 解析 }， 在 本 案例 中 ， 如 何 破解 生猪 生产 大 起 大 落 的 “ 猪 周 期 "， 走 出 “ 肉 贵 
伤 民 ， 猪 贱 伤 农 ” 的 怪圈 ， 是 道 待 解难 题 。 笔 者 从 业内 人 士 处 获悉 ， 除 了 建立 预警 信息 
制度 外 ， 鼓 励 规模 化 养殖 是 解决 “ 猪 周期 ”的 根本 。 散 农 户 追 泊 亲 跌 的 心理 很 强烈， 这 
对 市 场 的 良性 发 展 不 利 ， 而 规模 化 养殖 企业 能 主动 获取 市 场 信息 ， 规 避 市 场 风险 。 规 模 
化 企业 占 得 比重 越 大 ， 养 猪 行业 的 组 织 化 程度 越 高 ， 生 产 才 能 有 计划 ， 价 格 也 才能 平稳 
可 控 ， 从 而 降低 风险 。 

笔者 认为 ， 农 业 大 数据 其 实 还 可 以 渗透 到 耕地 、 播 种 、 施 肥 、 杀 虫 、 收 割 、 存 储 、 
育种 、 销 售 等 各 环节 ， 是 跨行 业 、 跨 专业 、 跨 业务 的 数据 分 析 与 挖掘。 


11.2.6 【案例 】 钢铁 企业 用 大 数据 摆脱 困境 


在 “十 一 五 ”期 间 ， 济 钢 集团 全 力 推进 精准 、 高 效 、 和 谐 发 展 战 略 ， 使 决策 更 加 科 
学 ， 管 理 更 加 精准 ， 运 营 更 加 高 效 ， 资 源 利 用 更 加 充分 ， 努 力 成 为 中 国 一 流 、 世 界 知名 
的 现代 化 钢铁 企业 。 

济 钢 集 团 作为 老牌 钢铁 企业 ， 在 同行 业 中 排名 领先 ， 与 其 雄厚 的 实力 相 匹配 的 是 信 
息 化 建设 的 完善 。 济 钢 的 信息 化 建设 经 过 十 多 年 的 发 展 ， 已 经 拥有 了 基础 自动 化 (上 L1)、 
过 程 自动 化 ( L2 )、 产 线 管 控 ( MES )、 经 营 管理 ( ERP )、 决 策 支持 ( BI ) 等 信息 系统 ， 
建立 了 完善 的 冶金 信息 自动 化 五 级 体系 架构 。 在 2008 年 之 前 ， 依 托 完善 的 冶金 信息 自 
动 化 五 级 体系 架构 ，BI 系统 的 应 用 对 济 钢 并 不 急迫 。 

不 过 ， 在 2008 年 9 月 份 ， 钢 铁 业 面临 经 济 危 机 的 极 大 威胁 ， 原 料 采购 与 钢材 销售 
两 大 市 场 不 可 控 因素 越 来 越 多 ， 需 要 精细 化 管理 提高 管理 效率 ， 对 企业 的 信息 化 建设 提 
出 了 新 的 挑战 。 主 要 原因 是 由 于 ERP、MES、 计 质量 系统 等 内 部 运营 信息 系统 有 大 量 业 
务 的 历史 数据 的 积累 与 沉淀 ， 急 需 有 效 地 从 大 量 信息 中 提取 有 价值 的 分 析 数据 和 预测 信 
息 ， 来 支持 企业 发 展 战略 决策 的 制定 。 另 外 ， 随 着 市 场 形势 的 日 益 复 杂 ， 济 钢 集团 建立 
一 个 数据 来 源 于 各 业务 系统 、 能 整合 外 部 数据 并 具 高 度 可 扩展 性 的 决策 辅助 支持 平台 已 
迫在眉睫 。 
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为 了 应 对 这 一 系列 问题 ，2011 年 4 月 7 日 ， 济 钢 集团 成 功 实 施 了 IBM 的 Cognos 
商业 智能 解决 方案 ， 帮 助 其 提升 企业 内 部 的 数据 管理 效率 。 商 业 智 能 业务 分 析 ， 作 为 济 
钢管 理 信息 系统 完善 提升 项 目的 重要 组 成 部 分 ， 已 经 成 为 济 钢 的 核心 应 用 系统 。 通 过 
Cognos 商业 智能 项 目的 实施 ， 济 钢 集团 的 精细 化 管理 得 到 了 有 效 提升 ， 决 策 更 加 准确 ， 
成 本 降低 达到 20% 以 上 。 


专家 提醒 
Cognos 在 BI 核心 平台 之 上 ， 以 服务 为 导向 进行 架构 ， 是 唯一 可 以 通过 单一 产品 和 在 单 
一 可 靠 架构 上 提供 完整 业务 智能 的 解决 方案 。 它 可 以 提供 无 颖 密 合 的 报表 、 分 析 、 记 分 卡 、 
仪表 盘 等 解决 方案 ， 通 过 提供 所 有 的 系统 和 资料 资源 ， 来 简化 公司 各 员工 处 理 资讯 的 方法 。 
作为 一 个 全 面 、 灵 活 的 产品 ，Cognos 业务 智能 解决 方案 可 以 容易 地 整合 到 现 有 的 多 系统 和 
多 数据 源 架构 中 。2013 年 6 月 11 日 ，IBM 发布 了 Cognos BI 最 新 版 本 10.2.1， 无 论 是 重新 
设计 的 UI 界 面 ， 还 是 新 特性 的 加 强 ， 都 给 人 耳目 一 新 的 感觉 ， 如 图 11-6 所 示 。 
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11-6 ”Cognos BI 10.2.1 界面 


随后 , 济 钢 集团 针对 钢铁 行业 市 场 的 严峻 形势 , 在 多 个 信息 系统 并 行 在 建 的 情况 下 ， 
以 原料 采购 与 钢材 销售 为 切入 点 ， 进 行 BI 系统 调研 、 方 案 设 计 、 系 统 实施 ， 并 于 2009 
年 12 月 1 日 上 线 IBM Cognos 8, 该 系统 将 市 场 行情 和 内 部 运营 情况 清晰 、 直 观 地 展现 
在 公司 领导 面前 ， 为 公司 快速 应 对 市 场 变化 、 调 整 内 部 经 营 策略 提供 信息 化 支持 手段 。 

以 原料 采购 为 例 ，2009 年 时 ， 与 济南 钢铁 有 长 期 协议 的 进口 铁 矿石 出 现货 源 危机 ， 
因此 主要 依靠 购买 现货 来 维持 生产 。 但 是 现货 的 价格 波动 大 ， 需 要 长 时 间 地 监控 相关 数 
据 ， 预测 价格 趋势 ， 并 且 要 关注 进口 铁 矿 海运 费 的 价格 趋势 ，BI 系统 的 上 线 使 这 些 问题 
迎刃而解 。 


在 钢材 销售 方面 , 济南 钢铁 主要 通过 BI 系统 分 析 监 测 年 度 钢材 销 额 、 区 域 分 布 、 大 
类 情况 、 客 户 排名 等 , 有 效 地 掌握 销售 区 域 流向 与 客户 排名 , 帮助 企业 快速 调整 销售 策略 。 

2010 年 ，BI 系统 帮助 济南 钢铁 抓 住 三 次 商机 ， 创 造 了 两 个 亿 的 效益 。 其 中 市 场 行 
情 分 析 室 直接 提 报 的 分 析 报 告 创造 价值 9000 万 元 ， 与 采购 部 门 合作 赢得 了 1.1 亿 元 。 
BI 系统 对 于 行情 分 析 室 需要 的 上 下 贯通 的 分 析 ， 提 供 了 有 力 的 支撑 。 

【 案例 解析 }， 在 本 案例 中 ，Cognos 系统 的 上 线 运行 ， 为 济 钢 集团 掌控 市 场 信息 ， 
科学 合理 采购 、 销 售 ， 更 好 地 把 握 商机 、 降 低 成 本 、 提 高 效益 提供 了 重要 帮助 。 

Cognos 展现 的 报表 基于 统一 的 元 数据 模型 ,统一 的 元 数据 模型 为 应 用 提供 了 统一 、 
一 致 的 视图 。 用 户 可 以 在 浏览 器 中 自 定义 报表 ， 格 式 灵活 ， 元 素 丰 富 ， 而 且 可 以 通过 
Query Studio 进行 即席 的 开放 式 查询 。Cognos 有 强大 的 报表 制作 和 展示 功能 ， 利 用 它 
能 够 制作 和 展示 任何 形式 的 报表 ， 其 纯粹 的 Web 界面 使 用 方式 又 使 得 部 署 成 本 和 管理 
成 本 降 到 最 低 。 同 时 Cognos 还 可 以 同 数据 挖掘 工具 、 统 计 分 析 工具 配合 使 用 ， 增 强 决 
策 分 析 功 能 。 


专家 提醒 
Cognos 具有 独特 的 穿 透 钻 取 ( Drill Through )、 切 片 (slice ) 和 切 块 (dice )、 以 及 旋转 
(pivot ) 等 功能 ， 使 分 析 人 员 、 管 理 人 员 或 执行 人 员 能 够 从 多 角度 对 信息 进行 快速 、 一 致 、 
交互 地 存 取 ， 从 而 获得 对 数据 的 更 深入 了 解 ， 有 效 地 将 各 种 相关 的 信息 关联 起 来 ， 使 用 户 在 
分 析 汇总 数据 的 同时 能 够 深入 到 自己 感 兴趣 的 数据 细节 中 ， 以 便 更 全 面 地 了 解 情况 ,做 出 正 
确 决策 。 


11.2.7 【案例 】 大 数据 提高 企业 核心 竞争 力 


山东 德 棉 股份 有 限 公司 始 建 于 1958 年 ， 公 司 现 拥 有 环 锭 纺 23 万 枚 、 气 流 纺 3000 
头 ， 引 进 无 梭 织 机 1214 台 ， 是 国家 大 型 一 档 棉 纺织 企业 。 

2001 年 以 来 ， 德 棉 的 信息 化 管理 逐步 覆盖 了 财务 、 进 销 存 、 人 力 资源 、 生 产 管理 、 
进出 口 业 务 等 。 但 是 ,这 些 系统 提供 的 数据 完全 面向 业务 ， 不 能 够 满足 领导 的 实际 需求 ， 
成 为 科学 、 精 确 决策 的 瓶颈 。 德 棉 的 IT 投入 像 “ 正 三 角形 ”一 样 ， 大 量 的 资金 投入 到 了 
底层 的 基础 架构 建设 方面 ， 越 向 上 越 少 。 

总 的 来 说 ， 德 棉 集团 的 信息 化 存在 三 大 问题 ， 如 表 11-2 所 示 。 


表 11-2 ” 德 棉 集团 的 信息 化 存在 的 三 大 问题 
三 大 问题 | 具体 对 象 具体 问题 
管理 Y 二] 
er 信息 化 究竟 与 领导 的 日 常 工作 有 什么 关系 ? 领导 在 信息 化 


角色 定位 “| 在 信息 化 系统 中 : 
区 EE 么 位 置 ， 么 
的 角色 定位 问题 应 用 体系 中 处 于 什么 样 的 位 置 ， 该 扮演 什么 样 的 角色 


. .请 噬 才 


Mh 
海 
晶 
到 
精 
惟 


h | -HE% 哎 间 .下 ”全 


两 喜 冯 部 曾 三 . .出 距 才 


| -ER .所 芋 儿 


三 大 问题 | 具体 对 象 


续 表 
具体 问题 


企业 内 部 不 同 
理 、 业 务 的 专 
化 导致 的 知识 
爸 问 题 


知识 壁垒 


管 


业 


由 于 各 自 所 属 的 专业 领域 不 同 ， 在 企业 内 部 ， 业 务 部 门 普 遍 
认为 信息 化 就 是 信息 技术 部 门 的 事情 , 而 信息 技术 部 门 又 无 
法 以 业务 部 门 理解 的 语言 表达 信息 化 。 此 外 ， 在 业务 部 门 之 
间 以 及 业务 部 门 与 管理 决策 者 之 间 也 存在 沟通 的 障碍 


实现 从 数据 到 
转化 问题 “| 息 ， 从 信息 型 


信 


知 


实现 信息 的 业务 化 、 管 理化 , 首先 要 解决 的 是 从 数据 到 信息 
从 信息 到 知识 的 转化 问题 ， 而 这 一 问题 的 解决 则 依赖 于 技 


识 的 转化 问题 “| 术 、 产 品 支持 


经 过 不 断 的 摸索 考察 以 及 慎重 的 选择 ， 德 棉 集团 准备 借助 浪潮 ERP-BI 决策 智能 系 
统 来 解决 这 些 问题 。ERP-BI 决策 智能 系统 的 技术 构架 如 图 11-7 所 示 。 


图 11-7 浪潮 ERP-BI 技术 构架 


专家 提醒 


浪潮 ERP-BI 系统 包含 系统 模块 、 报 表 管 理 、 万 能 查询 、 指 标 分 析 、 管 理 驾 驶 舱 、 领 导 
查询 。 报 表 管 理 模块 管理 集团 公司 的 统一 报表 格式 ， 实 现在 报表 系统 中 查询 各 个 子 公司 的 数 
据 ， 并 且 能 够 实现 数据 从 报表 到 凭证 的 联 查 。 万 能 查询 将 集团 下 发 的 标准 格式 导入 到 浪潮 
ERP-BI 系统 中 ， 统 计 各 种 数据 ， 能 够 正常 查询 科目 明细 账 、 赁 证 、 增 长 排行 、 经 营 活动 产 
生 的 现金 流量 表 等 ， 并 且 可 以 实现 多 表 联 查 ， 能 够 立体 展现 集团 公司 及 各 个 子 公司 的 经 营 


情况 。 


经 过 一 段 时 间 的 紧张 实施 ， 德 棉 决策 支持 系统 正式 上 线 运 行 。 随 着 单位 内 部 信息 系 
统 的 不 断 扩 展 ， 越 来 越 多 的 数据 被 积累 起 来 。 这 些 数据 包括 : 各 种 财务 软件 中 的 核算 数 
据 ， 分 散在 各 地 计算 机 中 的 Excel、DBF 数据 ， 分 布 在 单位 各 类 业务 系统 中 的 数据 ， 各 
下 级 单位 中 的 大 量 数据 等 。 

功能 强大 与 日 益 复杂 的 信息 系统 为 单位 带 来 了 更 多 与 更 强 的 管理 手段 和 方法 ， 使 德 
棉 集 团 可 以 更 好 地 规范 管理 ， 提 高 效率 ， 确 保管 理 的 满意 度 。 

该 系统 通过 业务 数据 归 集 分 析 ， 抽 取出 集团 领导 关注 的 核心 指标 ， 做 更 高 层次 的 抽 
象 ， 把 集团 领导 的 精力 从 大 量 的 表格 、 查 询 中 解放 出 来 ,真正 做 到 了 让 领导 “享受 技术 ， 
驾驭 技术 "， 决 策 支 持 初 现成 效 。 

现在 德 棉 各 单位 实施 应 用 的 软件 有 11 个 子 系统 、47 个 主要 模块 、93 个 子 功能 ， 分 
布 在 集团 本 部 、 各 子 公司 ， 涉 及 业务 包括 财务 、 供 应 、 销 售 、 库 存 、 进 出 口 业务 、 生 产 
计划 、 工 艺 、 质 量 、 统 计 、 人 事 、 工 资 、 办 公 自 动 化 、 互 联网 应 用 、 电 子 邮 局 、 决 策 支 
持 等 。 

【 案例 解析 }， 在 本 案例 中 可 以 发 现 ， 一 个 企业 的 信息 分 布 在 不 同 的 部 门 和 分 支 机 
构 ， 决 策 者 要 综观 全 局 、 运 筹 帷 则 ， 必 须 迅速 地 找到 能 反映 真实 情况 的 当前 或 历史 的 数 
据 ， 并 有 效 地 预测 未 来 管理 者 要 从 不 同 的 角度 来 审视 和 管理 业务 ， 必 须 从 纷繁 复杂 的 
系统 数据 中 迅速 地 找到 数据 与 数据 之 间 的 关系 ， 并 获得 各 种 统计 结果 和 分 析 资 料 。 这 些 
正 是 德 棉 集团 借助 浪潮 ERP-BI 决策 智能 系统 达到 的 目的 。 

笔者 认为 ， 企 业 要 根据 发 展 战略 确定 自己 要 解决 的 问题 ， 利 用 数据 分 析 找 准 发 展 瓶 
颈 ， 在 此 基础 上 优化 关键 业务 、 核 心 流程 的 资源 ， 从 而 通过 信息 化 手段 ， 提 高 自身 的 核 
心 竞争 能 力 。 
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餐饮 : 精 惟 言 


销 的 数据 


学 前 提示 

衣食 住 行 是 人 们 的 基本 需求 ， 所 以 很 多 人 在 创业 时 会 把 眼光 放 在 这 四 大 行业 ， 而 这 
其 中 属 餐 饮 业 竞争 最 为 激烈 。 那 么 ， 餐 饮 经 营 者 如 何 才 能 让 自己 的 投资 不 打 水 漂 ， 如 何 
才能 做 到 利润 最 大 化 呢 ? 利用 大 数据 精准 营销 的 特点 ， 即 可 帮助 餐饮 经 营 者 通 向 成 功 。 


要 点 展示 
< ”餐饮 行业 大 数据 解决 方案 
< ”餐饮 行业 大 数据 应 用 案例 


两 器 旦 网 潭 于 . . 询 距 才 


| ee 


12.1 ”六 饮 行业 大 数据 解决 方案 


餐饮 业 ( catering ) 是 将 即时 加 工 制作 、 商 业 销 售 和 服务 性 劳动 集 于 一 体 ， 向 消费 
者 专门 提供 各 种 酒水 、 食 品 、 消 费 场 所 和 设施 的 食品 生产 经 营 行业 。 餐 饮 市 场 整体 上 供 
大 于 求 ， 处 于 过 度 竞争 的 状态 ， 因 此 做 好 定位 至 关 重要 。 面 对 着 这 个 市 场 信息 爆炸 的 时 
代 ， 上 餐饮 业 数据 挖掘 该 怎么 做 ， 要 如 何 利用 大 数据 进行 准确 精准 的 餐饮 市 场 定位 呢 ? 本 
节 将 重点 分 析 餐 饮 业 数据 挖掘 的 市 场 现 状 和 前 景 。 


12.1.1 大 数据 在 餐饮 业 的 市 场 现 状 


俗话 说 :“ 民 以 食 为 天 。” 长 期 以 来 ， 餐 饮 业 作为 第 三 产业 中 的 主要 行业 之 一 ， 对 刺 
激 消费 需求 ， 推 动 经 济 增长 发 挥 了 重要 作用 ; 在 扩大 内 需 、 安 置 就 业 、 繁 荣 市 场 以 及 提 
高 人 民生 活 质量 等 方面 ， 都 做 出 了 积极 贡献 。 

随 着 我 国 居民 消费 水 平 的 快速 提高 ， 人 们 追求 品牌 店 、 特 色 店 和 名 牌 餐饮 店 的 势头 
更 加 明显 ， 个 性 化 特色 经 营 突出 的 品牌 、 特 色 餐 饮 深 受 青睐 。 中 国 餐饮 业 的 发 展 趋势 如 
表 12-1 所 示 。 因 为 看 到 行业 前 景 和 利益 驱动 的 原因 ， 进 入 这 一 领域 的 经 营 者 必然 会 大 
大 增加 ， 不 可 避免 地 要 带 来 激烈 而 残酷 的 竞争 。 


表 12-1 中 国 餐 饮 业 的 发 展 趋势 


发 展 趋势 具体 表现 

个 性 化 消费 日 市 场 消费 从 以 价格 选择 为 主 向 价格 、 品 位 、 氛 围 、 服 务 和 品牌 文化 等 综合 方向 

趋 明显 ， 特 色 | 发 展 , 注重 选择 的 理性 化 消费 特点 增强 , 个 性 化 和 特色 化 成 为 广大 消费 者 和 企 
业经 营 共同 追求 的 时 尚 。 为 满足 个 性 化 需要 , 要 求 企业 不 断 提高 经 营 的 特色 与 

餐饮 更 趋 突出 水 平 

连锁 经 营 迅速 | 以 连锁 经 营 为 代表 的 现代 餐饮 业 加 速 蔡 代 传统 餐饮 业 手 工 随意 性 生产 、. 单 店 作 

发 展 ， 企 业 发 | 坊 式 经 营 、 人 为 经 验 型 管理 , 向 产业 化 、 连 锁 化 、 集 团 化 和 现代 化 的 方向 迈进 。 

展 多 元 化 趋势 | 餐饮 业 所 有 制 结构 已 发 生 了 根本 性 的 变化 , 在 行业 规模 企业 发 展 中 , 投资 主体 

增强 多 元 化 、 经 营 模 式 多样 化 和 企业 规模 化 、 集 团 化 趋势 日 益 明显 ,实力 逐步 增强 


it 受 地 沟 油 、 禽 流感 等 的 冲击 ,餐饮 市 场 从 传统 的 色香 味 型 ,并 以 味 为 主 转 为 更 
加 注重 安全 卫生 、 健 康 营养 的 消费 。 安 全 、 健 康 的 餐饮 消费 成 为 餐饮 企业 与 消 


计 让 | 站 者 的 共同 追求 ， 餐 饮 企业 经 营 者 行为 规范 ， 促 进 了 餐饮 企业 质量 的 提高 


这 样 的 大 背景 对 餐饮 经 营 者 的 决策 产生 了 更 高 的 要 求 。 面 对 全 行业 过 度 竞争 的 局 
面 ， 如 何 创造 局 部 的 优势 ， 对 全 体 餐 饮 人 来 说 是 很 大 的 挑战 。 如 果 在 一 个 细 分 市 场 没 有 


优势 ， 就 会 陷入 到 同 质 化 的 竞争 中 去 ， 这 对 企业 的 生存 和 发 展 都 将 是 非常 不 利 的 。 这 些 
优势 有 可 能 是 局 部 的 优势 ， 有 可 能 是 地 点 或 地 域 的 优势 ， 也 有 可 能 是 一 部 分 特征 人 群 的 
优势 。 

因此 ， 和 餐饮 企业 的 目标 应 该 是 在 不 同 的 细 分 市 场 创造 局 部 优势 ， 如 此 就 能 在 一 个 完 
全 竞争 的 环境 中 ， 赢 得 相对 的 垄断 地 位 ， 为 企业 带 来 生存 上 的 保障 。 例 如 ， 夜 宵 诱惑 的 
核心 顾客 应 该 是 加 班 族 ， 针 对 主要 顾客 层级 ， 企 业 要 从 选 址 、 产 品 、 服 务 价格 等 一 系列 
环节 进行 调整 ， 当 然 前 提 是 需要 依靠 数据 的 准确 采集 与 提供 。 


12.1.2 ”餐饮 行业 面临 的 大 数据 挑战 


中 国 菜 也 是 世界 上 最 全 面 、 最 丰富 的 菜 别 。 可 是 为 什么 中 国 餐 饮 一 直 做 不 大 呢 ? 面 
对 外 国 餐 饮 企业 社会 化 生产 和 规模 化 经 营 ， 依 靠 经 验 型 管理 和 传统 式 经 营 的 中 国 餐 饮 企 
业 ， 显 然 处 于 劣势 。 尤 其 是 在 大 数据 时 代 ， 我 国 餐饮 行业 将 面临 以 下 三 大 挑战 。 

1， 如 何 控制 餐饮 成 本 

目前 , 餐饮 行业 的 竞争 环境 发 生 了 很 大 的 变化 , 主要 是 三 类 成 本 上 升 迅 速 , 如 表 12-2 
所 示 。 


表 12-2 餐饮 行业 的 三 类 成 本 


细节 内 容 
人 事 费 用 包括 了 员工 的 薪资 、 奖 金 、 食 宿 、 培 训 和 福利 等 
是 指 餐 饮 成 品 中 具体 的 材料 费 ， 包 括 食物 成 本 和 饮料 成 本 ， 这 也 是 餐饮 业务 
中 最 主要 的 支出 
包括 租金 、 水 电费 、 设 备 装潢 的 折旧 、 利 息 、 税 金 、 保 险 和 其 他 杂费 


三 类 成 本 
人 力 成 本 


原材料 成 本 
经 营 成 本 


近期 餐饮 行业 面临 更 大 的 压力 ， 体 现 为 原材料 成 本 、 房 租 成 本 的 迅速 提高 ， 利 润 率 
下 滑 是 目前 餐饮 行业 基本 的 状态 。 人 力 成 本 和 房租 成 本 的 上 升 是 必然 趋势 。 在 大 数据 时 
代 ， 如 何 控制 成 本 成 了 餐饮 行业 首要 解决 的 问题 。 

2， 如 何 进行 多 渠道 消费 

在 社会 消费 的 引领 者 中 ， 多 渠道 消费 的 特点 十 分 明显 。 目 前 ， 大 部 分 餐饮 企业 都 是 
采用 实体 店 经 营 的 方式 ， 在 多 渠道 消费 上 的 注意 力 则 略 显 不 足 。 如 何在 多 渠道 消费 领域 
升级 服务 ， 是 摆 在 餐饮 行业 每 一 个 企业 家 面前 的 难题 。 

现 阶段 ， 一 项 全 新 的 信息 化 应 用 服务 一 一 餐 前 的 网 络 订 餐 悄然 兴起 ， 有 的 企业 自 建 
了 订餐 平台 , 有 的 则 使 用 第 三 方 服务 平台 为 消费 者 提供 网 络 支付 和 商家 结算 。 顾名思义 ， 
网 上 订餐 就 是 互联 网 的 深入 应 用 ， 其 流程 如 图 12-1 所 示 。 用 户 通过 互联 网 ， 能 足 不 出 
户 ， 轻 松 闲 逸 地 自己 选 购 餐饮 和 食品 ( 包括 饭 、 菜 、 人 盒饭、 便当 等 )。 随 着 食 天 下 网 上 
订餐 平台 的 兴起 ， 网 上 订餐 已 经 逐渐 成 为 了 白领 阶层 中 的 一 种 潮流 了 。 
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12-1 网 上 订餐 的 流程 


到 餐厅 以 后 的 定位 点 菜 ， 实 现 的 主要 工具 是 平板 电脑 、 智 能 手机 等 ， 客 户 在 用 餐 过 
程 中 可 以 进行 抽奖 活动 ， 用 餐 之 后 还 可 以 利用 点 评 网 进行 点 评 。 现 阶段 消费 者 已 经 越 来 
越 倾 向 于 多 种 渠道 的 消费 模式 。 

3， 如 何 跟 上 大 数据 的 步伐 

由 于 历史 和 技术 的 种 种 原因 ， 和 餐饮 企业 的 信息 化 建设 缺乏 长 期 的 规划 ， 因 此 逐渐 形 
成 了 信息 孤岛 。 当 企业 规模 达到 一 定 程度 时 ， 这 些 孤岛 便 成 为 影响 企业 运营 效率 和 流程 
的 阻碍 ， 由 此 财务 流程 一 体 化 的 协同 管理 将 成 为 未 来 的 主流 应 用 。 

云 计 算 、 新 媒体 等 新 技术 的 快速 发 展 ， 成 为 推动 社会 发 展 的 重要 因素 ， 其 对 餐饮 业 
的 影响 也 很 深远 ， 这 些 新 应 用 正 潜移默化 地 改变 着 餐饮 行业 的 发 展 方式 。 

如 今 ， 很 多 餐饮 企业 都 转 而 应 用 云 计算 ， 握 弃 了 原来 繁杂 的 CS ( Customer 
Satisfaction ) 顾客 管理 方式 。 运 用 云 计算 可 以 有 效 降低 管理 成 本 , 快速 升级 、 快 速 部 署 ， 
更 为 迅速 地 对 市 场 和 消费 者 需求 进行 反应 。 现 在 很 多 餐饮 企业 大 幅度 增加 IT 方面 的 投 
资 ， 强 化 信息 化 技术 管理 ， 加 速 推动 整个 餐饮 行业 的 IT 信息 技术 建设 。 

另外 ， 很 多 餐饮 企业 已 经 由 原来 的 业务 管理 信息 化 ， 逐 步 提升 到 业务 管理 精细 化 。 
很 多 具有 一 定 规模 的 餐饮 企业 已 经 完成 了 核心 业务 模块 的 信息 化 建设 ， 接 下 来 的 重点 是 
管理 信息 化 向 管理 精细 化 的 过 渡 ， 向 管理 要 效益 。 

在 餐饮 行业 ， 数 据 的 挖掘 和 分 析 也 将 得 到 更 多 的 应 用 。 餐 饮 行 业已 经 积累 了 大 量 的 
历史 数据 ， 如 何 有 效 地 利用 这 些 数 据 ， 需 要 专业 的 工具 和 手段 支持 。 企 业 对 用 户 就 餐 体 
验 的 深入 关注 ， 将 会 使 智能 终端 的 应 用 越 来 越 广泛 。 

为 了 给 消费 者 提供 更 好 的 消费 体验 ， 和 餐饮 企业 内 的 智能 终端 应 用 将 越 来 越 丰富 ， 目 
前 两 种 主要 的 终端 应 用 平台 一 个 是 基于 iOS 系统 ， 另 一 个 是 基于 安 卓 系统 。 和 餐饮 企业 通 
过 设备 和 顾客 进行 深层 的 互动 ， 获 得 消费 者 的 评价 信息 和 调查 数据 。 

4. 餐饮 企业 如 何 面 对 数 据 的 挑战 

目前 ， 和 餐饮 行业 很 少 提 及 大 数据 这 个 概念 ， 毕 竟 中 国信 息 化 建设 只 有 30 年 左右 的 


DB 
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时 间 ， 具 体 到 餐饮 业 充其量 不 超过 10 年 。 因 此 ， 和 餐饮 行业 信息 化 的 建设 仍然 属于 “人 
治 ” 的 状态 ， 随 意 性 比较 大 ， 尚 未 形成 信息 化 和 规范 化 的 管理 制度 ， 缺 乏 对 信息 化 的 实 
施 和 控制 。 信 息 化 决策 机 制 不 完善 ， 风 险 管理 缺 位 ， 数 据 没 有 使 用 起 来 ， 导 致 企业 管理 
很 大 程度 上 要 依赖 于 个 人 领导 力 ， 这 也 会 增长 信息 化 的 风险 和 不 确定 性 。 此 外 ， 和 餐饮 行 
业 也 存在 找 不 到 信息 化 中 心 的 问题 ， 这 些 都 会 影响 信息 化 的 成 功 实 施 。 

对 于 还 未 施行 信息 化 策略 的 中 小 餐饮 企业 来 说 ， 首 要 任务 是 使 用 信息 技术 来 提高 自 
身 的 管理 水 平 , 把 中 国 的 传统 饮食 与 现代 信息 化 管理 有 机 地 结合 在 一 起 , 为 企业 的 做 大 、 
做 强 、 管 理 规范 化 提供 支撑 。 和 餐饮 企业 的 管理 目的 是 成 本 控制 、 运 营 控制 ， 其 最 终结 果 
表现 为 效率 和 效益 。 而 要 达到 这 一 目的 ， 管 理 数据 的 及 时 性 、 准 确 性 、 完 整 性 、 有 效 性 
是 至 关 重 要 的 ， 而 这 些 特性 恰恰 是 信息 系统 最 重要 的 特性 。 

对 于 已 经 做 好 IT 规划 的 成 长 型 餐饮 企业 来 说 , 要 有 一 定 的 前 瞻 性 ,制定 三 五 年 的 中 
长 期 规划 ， 避 免 信息 规划 不 统一 ， 甚 至 产生 信息 孤岛 的 情况 。 信 息 规划 是 动态 匹配 的 过 
程 ， 是 用 具体 的 IT 技术 最 大 程度 地 解决 和 满足 企业 的 业务 需求 的 过 程 ， 所 以 在 IT 规划 
前 必须 先进 行 组 织 业务 的 规划 。 


12.1.3 ”大 数据 对 餐饮 企业 有 何 作 用 


在 大 数据 时 代 ， 集 成 化 和 个 性 化 是 企业 运营 的 典型 特征 : 

( 1 ) 集成 化 。 系 统 的 集成 直接 产生 了 “小 前 台 ( 智能 终端 ) + 大 后 台 ( 大 数据 
的 经 营 模式 ， 切 实 简化 了 前 台 的 操作 。 这 也 符合 餐饮 行业 的 整体 趋势 ， 前 端的 简化 将 有 
效 减少 系统 使 用 的 培训 工作 。 集 成 化 另 一 种 方式 是 数据 的 集成 ， 例 如 ， 银 行 在 这 方面 先 
行 一 步 ， 当 我 们 外 出 消费 时 ， 通 常会 收 到 银行 的 短信 提醒 ， 内 容 是 消费 金额 ， 以 及 获得 
什么 样 的 积分 奖励 等 内 容 。 

专家 槛 醒 

云 计算 可 以 说 是 集成 化 模式 下 的 典型 应 用 ， 这 种 应 用 操作 成 本 比较 低 ， 必 将 成 为 主流 ， 
目前 应 用 主要 集中 在 网 络 点 餐 等 方面 。 

( 2 ) 个 性 化 。 数 据 的 个 性 化 是 通过 集成 化 来 实现 的 ， 在 识别 出 顾客 的 个 性 需求 后 ， 
企业 就 可 以 针对 顾客 进行 个 性 化 服务 。 如 何 才能 使 数据 的 挖掘 和 应 用 做 得 更 好 ? 需要 企 
业 对 消费 行为 有 更 深刻 的 识别 。 

专家 提醒 

笔者 认为 ， 除 了 系统 和 数据 层面 的 集成 化 ， 电 子 商务 也 得 到 了 快速 发 展 . 目前， 很 多 餐 
饮 企 业 都 在 进行 电子 商务 方面 的 尝试 和 探索 ,例如 和 团购 网 站 合作 ,使 用 第 三 方 平台 的 订餐 
系统 ， 也 可 以 自己 搭建 B2C、B2B 平台 。 

数据 时 代 信息 化 的 作用 ， 还 可 以 延伸 到 品牌 的 宣传 中 : 
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(1) 传播 途径 变 广 。 现 在 的 传播 形式 已 经 发 生 了 显著 变化 ， 对 微 博 、 互 联网 、 微 信 、 
二 维 码 的 应 用 是 餐饮 企业 在 未 来 发 展 中 的 必 经 之 路 。 

(2 ) 更 快 地 提高 效率 。 信 息 化 可 以 减少 繁琐 的 手工 操作 、 员 工 数 量 和 工作 复杂 程度 。 

(3 ) 提高 整个 团队 的 管理 水 平 。 在 财务 供应 链 的 信息 化 建设 过 程 中 ， 通 常 伴随 着 流程 
的 改变 ， 因 此 通过 信息 化 可 以 固化 和 优化 流程 ， 从 而 达到 提升 组 织 管理 水 平 的 目的 。 


12.1.4 餐饮 企业 该 如 何 应 用 大 数据 


经 营 餐 饮 业 需要 相当 高 明 的 营销 艺术 ， 将 最 好 的 构想 变 为 嗪 头 ， 尽 量 做 到 “人 无 我 
有 ， 人 有 我 精 。 只 有 以 客人 为 中 心 ， 以 市 场 为 导向 ， 改 变 经 营 观念 ， 才 可 以 处 于 不 败 


之 地 。 
因此 ， 在 餐饮 行业 中 ， 大 数据 不 能 大 而 无 用 ， 要 对 应 到 特定 企业 、 特 定 人 群 、 特 定 
需求 上 ， 才 能 发 挥 特定 作用 ， 产 生 价值 。 针 对 餐饮 企业 特定 需求 的 数据 支撑 服务 ， 针 对 
特定 人 群 的 特定 需求 的 数据 支撑 服务 ， 就 是 大 数据 的 “小 而 美 战略 "。 做 创新 的 餐厅 项 
目 ， 要 记 住 小 而 美 、 少 而 精 的 细 分 领域 ， 主 题 餐 厅 结 合 特定 目标 群 ， 设 计 品 种 丰富 但 单 
品 少 而 精 。 
下 面 是 大 数据 在 餐饮 企业 的 具体 应 用 ， 如 表 12-3 所 示 。 
表 12-3 大 数据 在 餐饮 企业 的 具体 应 用 
企业 应 用 具体 内 容 
LBS 服务 可 以 用 来 辨认 一 个 人 或 物 的 位 置 ， 例 如 发 现 最 近 的 提 款 机 或 朋友 
同事 目前 的 位 置 , 也 能 根据 客户 目前 所 在 的 位 置 提供 直接 的 手机 广告 , 包括 
基于 LBS 的 地 理 个 人 化 的 天 气 信息 提供 , 甚至 提供 本 地 化 的 游戏 。 现在 消费 者 需要 餐厅 位 置 
位 置 服务 信息 的 相关 服务 , 而 现 有 的 服务 商 并 不 能 完全 理解 消费 者 的 意图 , 也 不 了 解 
客户 知道 这 些 信息 后 的 行为 ， 何 种 服务 才能 吸引 用 户 。 因 此 ， 能 够 提供 实时 
信号 、 地 理 位 置 、 在 线 活 动 和 社交 媒体 ， 并 支持 众多 其 他 类 似 情景 的 综合 服 
务 ， 将 是 今后 的 趋势 与 主流 
企业 数据 在 管理 通过 SCM 管理 系统 ， 可 以 对 采购 价格 进行 分 析 ， 生 成 采购 价值 指数 ， 对 数 
决策 中 的 应 用 量 、 价 格 这 些 因素 进行 全 面 、 系 统 的 分 析 ; 同时 通过 CRM 系统 ， 对 顾客 的 
消费 行为 进行 更 深层 次 的 挖掘 与 分 析 
企业 基础 数据 ”| 运用 大 数据 系统 可 以 管理 酒菜 设置 、 特 价 促销 、 酒 菜 折扣 、 酒 菜 组 成 、 房 台 
管理 设置 、 消 费 方式 、 员 工资 料 等 
运用 大 数据 系统 可 以 充分 洞察 和 分 析 餐 饮 管理 的 现状 , 并 对 企业 管理 的 流程 
规避 经 营 风险 有 深刻 的 理解 和 准确 的 把 握 , 帮助 企业 利用 计算 机 强大 的 数据 处 理 能 力 和 流 
| 程 优化 能 力 ， 实 现 自动 化 管理 ， 简 化 企业 的 工作 流程 ,减少 浪费 及 人 为 管理 
的 疏漏 现象 ， 重 新 优化 配置 企业 资源 ， 把 经 营 成 本 降 到 最 低 
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大 数据 技术 的 发 展 ， 将 餐饮 业 的 竞争 带 入 了 一 个 全 新 的 境界 。 正 当 的 竞争 给 了 餐饮 
业 的 发 展 无 穷 的 动力 。 那 么 ， 大 数据 的 日 渐 普及 又 给 餐饮 业 带 来 什么 机 遇 和 挑战 呢 ? 笔 
者 认为 ， 大 数据 技术 除了 带 给 餐饮 企业 与 顾客 交流 沟通 的 高 效 、 便 捷 外 ， 最 大 的 好 处 便 
是 可 以 通过 餐饮 管理 软件 和 网 站 来 建立 自己 的 客户 数据 库 。 对 于 餐饮 企业 ， 特 别 是 大 规 
模 的 连锁 餐饮 企业 ， 拥 有 自己 的 客户 数据 库 ， 无 疑 于 在 信息 时 代 占 领 了 市 场 竞争 的 战略 
制高点 。 本 节 主 要 介绍 餐饮 行业 大 数据 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 
价值 。 


12.2.1 【案例 】 农夫 山泉 用 大 数据 卖 矿泉 水 


在 上 海 某 个 超市 的 一 个 角落 ， 农 夫 山泉 的 矿泉 水 静 静 地 摆 放 在 这 里 。 来 自 农夫 山泉 
的 业务 员 每 天 例行公事 地 来 到 这 个 点 ， 拍 摄 10 张 照片 :水 怎么 摆 放 、 位 置 有 什么 变化 、 
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这 样 的 商店 每 个 业务 员 一 天 要 跑 15 个 ， 按 照 规 定 ， 下 班 之 前 150 张 照片 就 被 传 回 
了 杭州 总 部 。 每 个 业务 员 ， 每 天 会 产生 的 数据 量 在 10MB ， 这 似乎 并 不 是 个 大 数字 。 不 
过 ， 把 范围 再 扩大 一 点 ， 这 个 数据 就 会 变 大 。 农 夫 山 泉 在 全 国有 10000 个 业务 员 ， 这 样 
每 天 的 数据 就 是 100GB， 每 月 为 3TB。 

挖掘 这 些 数据 到 底 有 什么 用 呢 ?” 农 夫 山 泉 面 对 这 些 照片 ， 很 快 找到 了 几 个 突破 口 。 
怎样 摆 放 矿泉 水 更 能 促进 销售 ? 什么 年 龄 的 消费 者 在 水 堆 前 停留 更 久 ， 他 们 一 次 购买 的 
量 多 大 ? 气温 的 变化 让 购买 行为 发 生 了 哪些 改变 ? 竞争 对 手 的 新 包装 对 销售 产生 了 怎 
样 的 影响 ? 农夫 山泉 从 2008 年 就 开始 收集 这 些 照片 ， 如 果 按 照 数据 的 属性 来 分 类 ,“" 图 
片 ”属于 典型 的 非 关系 型 数据 ， 还 包括 视频 、 音 频 等 。 要 系统 地 对 非 关 系 型 数据 进行 分 
析 是 农夫 山泉 在 “大 数据 时 代 ” 必 须 迈 出 的 步骤 。 

1. 营销 信息 化 方案 

2007 年 底 , 农夫 山泉 决定 甩 开 经 销 商 , 自己 控制 营销 市 场 , 并 着 手 建 立 一 支 直接 面 
向 终端 的 一 线 业务 代表 团队 。 农 夫 山 泉 将 工作 的 重点 转向 了 营销 信息 化 ， 开 发 了 营销 管 
理 短信 平台 ， 借 助 GPS 服务 和 全 球 定位 增值 业务 ， 把 每 一 个 经 销 商 、 终 端 门 店 和 终端 
业务 员 的 销售 数据 都 集中 起 来 管理 。 

借助 手机 终端 ， 农 夫 山泉 实现 了 对 业务 代表 和 销售 人 员 的 实时 监控 、 管 理 ， 公 司 的 
管理 触角 直接 由 一 级 经 销 商 扩展 到 零售 门店 ， 甚 至 直达 终端 消费 者 ， 从 而 牢 牢 掌握 住 了 
渠道 。 而 以 电子 数据 流 作为 依据 ， 从 订单 到 收 货 ， 农 夫 山泉 也 能 够 随时 查询 、 分 析 所 有 
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的 数据 信息 ， 为 决策 提供 支持 。 

目前 ， 除 了 中 国 香港 和 台湾 地 区 ， 国 内 所 有 省 市 都 有 农夫 山泉 的 业务 员 在 使 用 手机 
终端 运作 业务 ， 每 月 总 短信 量 高 达 1000 万 条 之 多 ， 覆 盖 范 围 极 广 。 

2.， 携手 SAP 大 数据 

早 在 2004 年 ， 农 夫 山 泉 就 引进 了 SAP 的 ERP 系统 ， 不 过 当时 的 农夫 山泉 仅仅 是 
一 个 软件 的 采购 和 使 用 者 ， 而 SAP 也 还 只 是 服务 商 的 角色 ， 因 此 效果 并 不 理想 。2011 
年 6 月 ，SAP 和 农夫 山泉 开始 共同 开发 基于 “饮用 水 ”的 产业 形态 中 ， 运 输 环 境 的 数据 
场景 。 

农夫 山泉 在 全 国有 十 多 个 水 源 地 ， 通 过 把 水 灌 装 、 配 送 、 上 架 ， 一 瓶 超市 售 价 2 元 
的 550ml 饮用 水 ， 其 中 就 有 3 毛 钱 花 在 了 运输 上 。 因 此 ， 如 何 根据 不 同 的 变量 因素 来 控 
制 自己 的 物流 成 本 ， 成 为 农夫 山泉 的 核心 问题 。 

在 采购 、 仓 储 、 配 送 这 条 线 上 ， 农 夫 山 泉 特 别 希 望 大 数据 获取 解决 三 个 奖 症 ， 首先 
是 解决 生产 和 和 销售 的 不 平衡 ， 准 确 获知 该 生产 多 少 ， 送 多 少 ， 其 次 ， 让 400 家 办 事 处 、 
30 个 配送 中 心 能 够 纳入 到 体系 中 来 ， 形 成 一 个 动态 网 状 结构 ， 而 非 简单 的 树 状 结构 ; 最 
后 ， 让 退货 、 残 次 等 问题 与 生产 基地 能 够 实时 连接 起 来 。 

对 此 ，SAP 团队 和 农夫 山泉 团队 开始 了 场景 开发 ， 他 们 将 很 多 数据 纳入 了 进来 : 高 
速 公路 的 收费 、 道 路 等 级 、 天 气 、 配 送 中 心 辐射 半径 、 季 节 性 变化 、 不 同市 场 的 售 价 、 
不 同 渠道 的 费用 、 各 地 的 人 力 成 本 甚至 突 发 性 的 需求 ( 例如 某 城市 召开 一 次 大 型 运动 
会 ) 等 。 

2011 年 ，SAP 推出 了 创新 性 的 数据 库 平 台 SAPHANA， 农 夫 山泉 则 成 为 全 球 第 三 
个 、 亚 洲 第 一 个 上 线 该 系统 的 企业 ， 并 在 当年 9 月 宣布 系统 对 接 成 功 。 采 用 SAPHANA 
后 ， 同 等 数据 量 的 计算 速度 从 过 去 的 24 小 时 缩短 到 了 0.67 秒 ， 几 乎 可 以 做 到 实时 计算 
结果 ， 这 让 很 多 不 可 能 的 事情 变 为 了 可 能 。 

2013 年 ,农夫 山泉 再 次 携手 SAP , 兴 试 开发 基于 SAPHANA 的 SAP Business Suite。 
农夫 山泉 希望 借助 这 一 最 先进 的 业务 平台 ， 在 实时 分 析 海 量 数据 的 基础 上 ， 加 快 应 收 应 
付 账 款 管理 、 简 化 订单 流程 、 优 化 库存 管理 、 加 速 物料 资源 计划 运算 ， 从 而 在 各 种 “ 端 
到 端 ” 业 务 流程 中 实现 全 新 的 商业 价值 。 

有 了 强大 的 数据 分 析 能 力 做 支持 后 ， 近 年 来 ， 农 夫 山泉 以 30% ~ 40% 的 年 增长 率 ， 
在 饮用 水 方面 快速 超越 了 原先 的 三 甲 : 娃哈哈 、 乐 百 氏 和 可 口 可 乐 。 根 据 国家 统计 局 公 
布 的 饮用 水 领域 的 市 场 份额 数据 ， 农 夫 山泉 、 康 师傅 、 娃 哈哈 、 可 口 可 乐 的 冰 露 ， 分 别 
为 34.8%、16.1%、14.3%、4.7%， 农 夫 山 泉 几 乎 是 另外 三 家 之 和 ， 如 图 12-2 所 示 。 

【 案例 解析 】， 在 本 案例 中 ， 作 为 一 家 后 来 居 上 的 快 消 品 企业 ， 农 夫 山泉 的 产品 线 
并 不 像 可 口 可 乐 、 康 师傅 、 娃 哈哈 那么 齐全 。 在 此 背景 下 ， 它 凭借 与 之 同 台 竞技 的 资本 
就 颇 值 得 仔细 推 旋 。 除 依靠 特色 产品 之 外 ， 狠 抓 渠道 管理 、 重 视 终 端 市 场 表现 ， 并 借助 
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IT 系统 制定 出 快速 反馈 机 制 ， 是 农夫 山泉 的 秘密 武器 。 


0 农夫 山泉 康师傅 。 娃哈哈 。 冰 露 其 他 
图 12-2 2012 年 饮用 水 品牌 市 场 份额 


笔者 认为 ， 企 业 对 于 数据 的 挖掘 使 用 可 以 分 为 以 下 三 个 阶段 : 

> ”首先 把 数据 变 得 透明 ， 让 大 家 看 到 数据 ， 能 够 看 到 的 数据 会 越 来 越 多 。 

> ”然后 可 以 提问 题 ， 可 以 形成 互动 ， 很 多 支持 的 工具 来 帮助 我 们 做 出 实时 分 析 。 

> 最 后 ， 通 过 信息 流 来 指导 物流 和 资金 流 ， 即 用 数据 预测 未 来 ， 指 导 企业 前 进 的 
方向 。 


12.2.2 【案例 】 绝 味 鸭 脖 的 大 数据 经 营 模 式 


“ 绝 味 ” 意 为 绝妙 的 、 绝 无 仅 有 的 味道 ， 其 经 典 美味 的 鸭 脖 深 得 消费 者 青睐 。 绝 味 
全 国门 店 现 已 突破 5000 家 ， 从 创办 至 今 ， 共 累计 服务 顾客 达 10 亿 人 次 ,已 成 为 鸭 脖 连 
锁 领 导 品 牌 。 

鸭 脖 的 产业 规模 令 人 惊讶 ，2013 年 达到 了 近 370 亿 元 的 市 场 容量 和 规模 ， 对 于 绝 
味 来 讲 ， 每 天 约 有 70 万 人 次 走 进 绝 味 的 门店 ,平均 每 天 售 出 100 万 根 鸭 脖 ，2013 年 的 
年 零售 额 已 经 接近 40 亿 。 

一 根 看 似 毫 不 起 眼 的 小 鸭 脖 ， 能 达到 这 样 的 规模 ， 这 是 很 多 人 没有 想到 的 。 目 前 ， 
绝 味 已 经 为 3300 个 加 盟 商 实 现 了 创业 梦想 ， 解 决 了 20000 名 员工 的 就 业 问题 。 这 一 组 
数据 揭示 了 绝 味 正 是 “小 行业 大 市 场 ”的 企业 典型 ， 通 过 小 小 的 鸭 脖 ， 绝 味 手 起 了 巨大 
的 休闲 熟食 市 场 。 

绝 味 在 商业 模式 、 管 理 方式 、 营 销 手段 上 都 做 了 创新 和 尝试 , 才 获得 了 今天 的 地 位 ， 
主要 表现 在 以 下 3 个 方面 : 

( 1 ) 销售 模式 的 变革 。 绝 味 引 入 了 特许 经 营 这 样 一 个 商业 模式 完成 了 零售 业态 的 
改变 。 

专家 提醒 
例如 ， 随 着 微 信 公 众 平台 的 推出 ， 作 为 行业 领导 品牌 的 绝 味 敏锐 地 把 握 了 这 一 极 具 价值 
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的 推广 资源 ， 已 正式 开通 微 信 平台 。 使 用 微 信 的 人 大 多 年 轻 、 时 尚 ， 追 求 新 事物 ， 这 和 绝 味 
的 目标 人 群 相 匹配 。 通 过 微 信 平台 ， 绝 味 能 实现 对 目标 人 群 “点 对 点 ”的 信息 推送 和 实时 互 
动 ， 并 保证 高 效 到 达 。 微 信 平 台 将 成 为 绝 味 和 消费 者 之 间 最 快捷 的 数据 沟通 桥梁 。 通 过 这 一 
新 媒体 ， 消 费 者 可 以 更 方便 、 及 时 地 了 解 绝 味 的 相关 信息 、 资 讯 ， 更 便捷 地 参与 绝 味 推出 的 
活动 , 享受 到 更 多 的 优惠 等 。 同时, 绝 味 也 可 以 提高 消费 者 夭 性 ,实现 品牌 的 “病毒 式 传播 。 

( 2 ) 管理 方式 的 改变 。 绝 味 将 传统 的 作坊 式 工厂 、 门 店 上 升 到 规模 化 生产 ， 同 时 

实现 了 管理 干部 以 及 人 才 梯 队 的 搭建 。 
( 3 ) 采用 数据 决策 。 绝 味 导 入 了 信息 化 建设 ， 专 项 资金 接近 两 个 亿 。 特 别 是 导入 
了 世界 500 强 的 先进 管理 工具 SAP , 在 传统 食品 制造 行业 尤其 是 在 卤 制 食品 制造 业 是 第 
一 家 。 

SAP 是 目前 全 世界 排名 第 一 的 ERP 软件 。 根 据 应 用 场景 的 特性 ，SAP 针对 性 的 数 
据 库 可 以 分 为 5 种 : 行 式 数据 库 、 列 式 数据 库 、 内 存 数据 库 、 褒 入 式 数据 库 、 数 据 流 处 
理 等 。 由 于 客户 数据 的 交易 、 迁 移 、 存 储 、 分 离 、 分 析 都 各 有 特点 ， 之 间 不 可 能 含糊 ， 
不 可 能 都 用 一 个 技术 解决 所 有 问题 。 基 于 此 ，SAP 在 各 个 细 分 市 场 上 提供 了 相应 的 数据 
库 产 品 : 在 分 析 型 数据 库 方面 ，Sybase IQ 有 最 佳 的 TCO 表现 ; 在 交易 型 数据 方面 ， 
SAP 的 Sybase ASE 有 最 佳 的 TCO; 在 移动 以 及 嵌入 式 数据 库 方面 ，SAP 有 SQL 
Anywhere; 在 统一 的 实时 数据 管理 平台 上 ，SAP 也 有 对 应 的 产品 。 

县 部 全 时 正在 务 力 打造 一 移 的 待人 美 碟 平 全 ; 让 “ 绝 味 ”成 为 汇集 各 类 美食 的 汇 
道 ， 让 消费 者 更 便捷 地 获得 健康 、 安 全 的 美食 。 同 时 ， 绝 味 还 将 强势 推广 品牌 ， 不 断 拓 
展 经 营 加 盟 商 ， 为 加 盟 商 提 供 更 好 的 加 盟 环境 ， 进 而 实现 与 消费 者 、 加 盟 商 三 方 共 赢 的 

商业 生态 圈 。 

【 案例 解析 】， 在 本 案例 中 ， 绝 味 通过 与 消费 者 的 近 距 离 深入 互动 ， 进一步 融入 了 

消费 者 的 休闲 生活 ， 这 不 但 提高 了 绝 味 品牌 的 美誉 度 ， 还 是 其 进入 互动 营销 新 时 代 的 
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笔者 认为 ， 绝 味 还 可 以 让 大 数据 飞 得 更 高 ， 它 是 雄才大略 者 的 利器 ， 它 将 使 企业 具 
有 无 可 比拟 的 竞争 优势 。 


12.2.3 【案例 】“ 哆 啦 宝 ”打造 精准 营销 平台 


2013 年 7 月 , 国内 第 三 方 支付 企业 易 宝 支付 正在 低调 测试 一 款 餐 饮 营销 类 产品 " 哆 
啦 宝 "， 欲 凭借 其 掌握 的 支付 数据 反 向 尝试 客户 管理 和 精准 营销 。 这 也 标志 着 易 宝 支付 
将 从 消费 后 端的 支付 环节 正式 涉足 消费 前 端的 营销 环节 。 

“ 哆 啦 宝 " 是 针对 线 下 商户 的 智慧 支付 营销 解决 方案 , 是 集 硬件 智慧 营销 终端 POS、 
软件 会 员 营 销 解决 方案 、 商 户 网 络 营销 平台 以 及 社会 化 媒体 营销 平台 于 一 体 的 效果 营销 
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解决 方案 , 掀起 线 下 支付 营销 按 效果 付费 的 风潮 , 帮助 企业 一 起 挖掘 "消费 后 市 场 数据 ”， 
如 图 12-3 所 示 。 


图 12-3 “ 哆 啦 宝 ”的 营销 特点 


“ 哆 啦 宝 ” 主 要 面向 餐饮 类 商户 ， 它 在 商户 POS 机 中 内 置 一 套 系统 ， 该 系统 主要 
用 于 采集 用 户 交 易 数据 、 进 行 客户 管理 。 消 费 者 第 一 次 在 商家 刷卡 消费 时 ， 在 POS 机 
上 和 输入 手机 号 ， 可 以 短信 收 到 商家 的 红包 信息 ， 同 时 将 手机 号 与 其 银行 卡 绑 定 。 下 次 到 
店 刷卡 消费 时 ，POS 机 内 置 系统 将 自动 识别 红包 信息 ， 并 扣 掉 相 应 优惠 金额 ， 并 再 生成 
一 个 红包 ， 以 此 循环 。 
数据 显示 ，2012 年 ， 我 国 银行 卡 消费 金额 达 20.8 万 亿 元 ， 共 90.09 亿 笔 ， 分 别 较 
2011 年 增长 36.9% 和 40.5%， 随 着 银行 卡 的 普及 ,刷卡 消费 额 更 是 同比 增长 超过 50%， 
占 社 会 消费 品 零售 总 额 的 比重 超过 40%。 
易 宝 支 付 也 发 现 了 其 中 的 大 机 遇 ， 并 与 近 百 家 金融 机 构 达 成 战略 合作 关系 ， 并 支持 
34 家 银行 卡 升级 为 红包 银行 卡 ， 普通 银行 卡 只 要 刷 “ 哆 啦 宝 ”POS， 即 可 为 此 卡 创建 一 
个 红包 账户 ， 完 成 智慧 升级 。 此 后 ， 在 任何 一 家 “ 哆 啦 宝 ”合作 商户 刷卡 ， 即 可 获得 消 
费 后 商家 返 的 现金 红包 ， 并 直接 存 入 红包 银行 卡 ， 下 次 刷卡 消费 可 自动 抵 现 。 此 模式 不 
改变 商户 使 用 传统 POS 的 任何 操作 ， 无 声 无 息 地 帮 商 户 完成 消费 后 营销 ， 同 时 消费 者 
只 需 激活 一 次 ， 即 可 尽 享 “ 哆 啦 宝 ” 合 作 商 户 的 个 性 化 优惠 折扣 。 
另外 , 通过 内 置 的 软件 , POS 机 产生 的 每 一 笔 刷 卡 交易 都 将 在 “ 哆 啦 宝 " 形成 记录 ， 
“ 哆 啦 宝 ” 则 将 基于 交易 数据 做 精准 的 客户 营销 ， 提 高 二 次 消费 率 ， 其 营 收 则 主要 通过 
商户 返点 获得 。 据 悉 ,“ 哆 啦 宝 ” 试 运营 期 间 ， 合 作 商 户 的 回头 率 已 高 于 16%， 超 过 了 
团购 行业 大 约 10% 的 回头 率 。 据悉 , 易 宝 支付 旗下 目前 在 全 国 铺设 了 约 10 万 台 POS 机 
商户 ( 占 全 国 终端 POS 机 总 数 的 1.7% 左 右 )。 
【 案例 解析 }， 以 餐饮 行业 为 主 的 生活 市 场 已 经 盘 距 着 形形色色 的 大 型 企业 以 及 创 
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业 公司 ， 也 总 有 全 新 的 模式 时 常 跳出 来 吸引 市 场 的 眼球 。 在 本 案例 中 ， 易 宝 支付 的 “ 哆 
啦 宝 ”代表 了 一 种 近期 正在 流行 的 新 趋势 : 深入 商户 后 端 ， 精 细 化 运营 老 客 户 ， 而 不 是 
一 味 追 求 前 端 营销 。 

“ 哆 啦 宝 ”的 服务 归根 结 底 也 最 有 价值 的 部 分 其 实 是 数据 服务 。 笔 者 认为 ， 从 大 数 
据 角 度 来 看 ， 集 体 用 户 的 行为 规律 很 重要 ， 但 搞 清 楚 用 户 是 谁 更 重要 。 用 户 的 行为 规律 
可 以 作为 改善 老 产 品 、 生 产 新 产品 的 有 力 依据 ， 而 知道 用 户 是 谁 、 在 哪 ， 并 能 随时 随 刻 
地 找到 他 们 、 触 及 到 他 们 才 是 完成 商业 转化 的 关键 。 


12.2.4 【案例 】 打造 适合 你 的 找 餐 馆 手机 APP 


“好 友 美 食 ”APP 是 基于 新 浪 微 博 的 开放 社交 图 谱 制 作 的 ， 其 通过 提炼 6000 万 微 
博 数据 ， 可 以 帮助 用 户 通过 社交 好 友 发 布 的 内 容 获 得 好 友 喜 欢 的 美食 。 

“好 友 美 食 ” 会 直接 根据 用 户 所 处 的 地 理 位 置 ， 在 首页 向 用 户 推荐 附近 的 美食 ， 并 
显示 推荐 理由 、 实 际 距 离 、 人 均 消 费 等 信息 ， 如 图 12-4 所 示 。 点 击 进入 每 个 店铺 的 单 
独 页 面 ， 除 地 址 、 电 话 等 基本 信息 外 ,“ 微 博 评价 ”以 不 同 的 冷暖 色调 呈现 出 来 ， 暖 色 
为 正面 评价 ， 冷 色 为 负面 评价 ， 黑 色 则 为 中 性 评价 。 

例如 ， 你 请 朋友 吃饭 ， 去 一 家 自己 喜欢 的 川菜 馆 ， 结 果 朋友 不 喜欢 吃 辣 。 这 就 是 典 
型 的 无 法 根据 好 友 兴 趣 挑选 美食 的 问题 。 "好友 美食 ”通过 抓 取 新 浪 微 博大 量 关 于 美食 
的 数据 显示 ， 仅 含有 “麻辣 诱惑 ”的 关键 词 就 抓 取 了 上 百 万 条 信息 ， 可 以 覆盖 数 百 万 用 
户 的 个 人 喜好 。 再 例如 ， 某 个 用 户 的 微 博 内 容 中 包含 一 次 “ 火 宫殿 ”一 词 ， 也 许 不 能 说 
明 什么 ,但 是 如 果 “ 火 宫殿 ”这 个 词 出 现 了 5 次 以 上 ， 那 么 至 少 证 明 他 经 常 去 这 家 餐厅 
吃 东西 。 

目前 , “好 友 美 食 ”的 基础 数据 来 自 于 新 浪 微 博 的 开放 和 平台， 经 过 数据 挖掘 分 析 后 
呈现 给 用 户 ,涵盖 了 北京 、 天 津 、 武 汉 、 杭 州 、 西 安 、 上海、 成 都 、 重 庆 、 广 州 、 深 圳 、 
南京 等 11 个 城市 ， 未 来 会 陆续 加 入 其 他 城市 。 

除 此 之 外 , “好友 美 食 ” 人 允许 随时 随地 拍照 上 传 到 新 浪 微 博 ， 同 时 也 会 显示 你 的 好 
友 在 附近 哪 家 餐厅 吃 过 的 评价 ， 你 的 好 友 也 能 同步 看 到 你 对 于 餐厅 的 评价 ， 每 位 用 户 都 
会 有 自己 对 之 前 吃 过 的 地 方 发 布 评价 的 记录 ， 可 以 看 到 你 自己 还 有 好 友 的 美食 轨迹 ， 为 
自己 的 吃 货 道路 留 下 每 一 份 记忆 ， 如 图 12-5 所 示 。 

【 案例 解析 】， 在 本 案例 中 ， 对 于 和 餐饮 企业 来 说 ,“ 好 友 美 食 ”APP 对 顾客 意见 信息 
的 收集 获取 ， 对 其 经 营 发 展 有 重大 意义 。 餐 饮 企 业 可 以 对 这 些 数据 进行 分 析 整 理 ， 找 到 
企业 在 经 营 管理 上 存在 的 不 足 和 缺陷 , 然后 针对 此 进行 有 目的 的 调整 和 改善 , 只 有 这 样 ， 
企业 的 经 营 管理 水 平 才 会 得 到 不 断 地 提升 和 进步 ， 才 会 赢得 更 多 顾客 的 喜爱 和 认 


可 


o 


DB 


# 味 嘻 咪 吐 测 测 锅 ( 中 关 村 店 ) 玉 


时 -北京 市 海淀 区 海 泻 大 街 9 号 125 
签到 郴 图 点 评 加 人 


江南 赋 ( 中 钢 店 ) 


108 米 
1042 杀 迷信 如 到 本 


服务 


图 12-4 向 用 户 推荐 附近 的 美食 12-5 ”发 布 评价 

笔者 认为 ， 餐 饮 企业 还 可 以 利用 这 些 数 据 来 分 析 顾 客 的 饮食 习惯 ， 达 到 精准 营销 的 
目的 。 另 外 ， 还 可 以 针对 主力 目标 用 户 群 的 生活 需求 和 精神 需求 ， 和 一 些 品牌 商家 联合 
做 沙龙 或 体验 式 活动 ， 为 用 户 提供 他 们 需要 的 其 他 种 类 的 产品 。 例 如 ， 对 于 女性 用 户 的 
消费 和 购买 需求 ， 除了 美食 ,还 会 有 各 种 护肤 美容 、 休 闲 健康 、 服 装 搭配 等 方面 的 需求 。 
联合 做 活动 ， 进 行 用 户 数据 的 收集 、 跟 踪 和 汇总 分 析 ， 挖 掘 数据 的 价值 ， 形 成 数据 服务 ， 
提供 增值 服务 ， 创 造 商业 价值 。 
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金融 : 大 数据 
理财 时 代 


学 前 提示 

金融 事务 需要 搜集 和 处 理 大 量 数据 , 对 这 些 数 据 进 行 分 析 , 发 现 其 数据 模式 及 特征 ， 
然后 可 能 发 现 某 个 客户 、 消 费 群 体 或 组 织 的 金融 和 商业 兴趣 ， 并 可 观察 金融 市 场 的 变化 
趋势 。 本 章 将 针对 金融 行业 ， 探 索 大 数据 时 代 的 企业 理财 经 。 


要 点 展示 
< ”金融 行业 大 数据 解决 方案 
< ”金融 行业 大 数据 应 用 案例 
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13.1 ”金融 行业 大 数 根 解 决 方案 


互联 网 的 发 展 和 信息 爆炸 已 经 将 我 们 推 入 了 以 云 计 算 和 大 数据 为 新 特征 的 信息 社 
会 ， 数 据 爆炸 性 增长 催生 了 大 数据 技术 的 出 现 ， 引 发 了 一 系列 衍生 物 出 现 ， 如 互联 网 金 
融 等 。 大 数据 已 经 不 再 只 是 实验 室 的 研究 课题 ， 它 们 已 经 对 社会 造成 了 冲击 ， 并 对 商业 
实践 产生 了 苏 覆 性 的 影响 。 金 融 业 作为 传统 行业 之 一 ， 也 感受 到 了 “数据 地 震 "， 金 融 
机 构 若 不 能 紧 随 经 济 、 技 术 和 社会 的 发 展 而 发 展 ， 就 会 面临 被 淘汰 的 危险 。 


13.1.1 大 数据 对 传统 金融 行业 的 影响 


从 现代 信息 技术 的 潮流 看 ， 近 两 年 来 全 世界 掀起 了 一 波 大 数据 的 浪潮 ， 美 国 奥巴马 
政府 宣布 了 “大 数据 的 研究 和 发 展 计划 "， 欧 盟 也 明确 提出 了 “开放 数据 战略 "。 如 何在 
大 数据 时 代 更 好 地 推动 金融 创新 ， 是 传统 金融 行业 必须 认真 面 对 和 严肃 思考 的 问题 。 

对 金融 行业 来 说 ， 使 用 “大 数据 金融 ”的 概念 ， 制 定 并 实施 “大 数据 金融 ”战略 ， 
更 能 体现 金融 业 自 身 的 实力 和 潜力 ， 也 更 能 与 网 络 业 及 其 他 行业 有 机 融合 ， 平 等 竞争 ， 
在 大 数据 时 代 找 到 自身 生存 发 展 的 机 会 也 更 大 。 

如 今 ， 世 界 正在 步 入 大 数据 时 代 ， 为 后 来 者 提供 了 不 可 多 得 的 战略 空间 和 机 会 。 例 
如 ， 京 东 商 城 、 金 银 岛 等 电子 商务 企业 借助 平台 积淀 的 数据 资产 纷纷 进军 供应 链 金 融 领 
域 ， 将 信息 流 、 物 流 和 资金 流 深度 融合 ， 为 平台 上 的 用 户 提供 订单 融资 、 仓 单 融资 等 服 
务 。 该 模式 弥补 了 传统 供应 链 金融 信息 技术 支撑 不 够 、 服 务 范围 有 限 等 不 足 ， 推 动 了 供 
应 链 金融 的 进一步 发 展 。 

在 大 数据 时 代 ， 传 统 金融 机 构 也 开始 采取 积极 的 应 对 措施 ， 以 面 对 新 兴 金 融 力量 的 
不 断 渗入 造成 的 威胁 。 例 如 ， 银 行业 推出 网 上 银行 、 网 络 融资 和 电子 商务 等 业务 ， 保 险 
业 亦 开始 探索 通过 网 络 销售 保险 、 网 上 个 性 化 保险 产品 和 虚拟 财产 保险 等 业务 。 

然而 ， 对 于 金融 业 这 么 一 个 数据 密集 型 行业 来 说 ， 无 论 是 传统 的 线 下 业务 还 是 新 型 
的 线 上 业务 ， 数 据 仍然 是 其 竞争 的 关键 要 素 。 银 行业 进军 电子 商务 的 核心 目的 在 于 采集 
数据 ， 银 行业 开展 网 络 融 资 、 保 险 业 探索 虚拟 财产 保险 的 成 败 关键 则 在 于 利用 数据 。 由 
此 可 见 ， 大 数据 全 然 成 为 金融 业 构 建 核 心 竞争 力 的 重要 资产 。 

对 传统 金融 企业 来 说 ， 是 否 以 自己 为 中 心 提 供 各 种 网 络 服务 已 经 变 得 没有 过 去 那么 
重要 ， 获 取 和 利用 他 人 所 产生 的 数据 变 得 更 加 重要 。 基 于 某 种 服务 所 积累 的 数据 价值 在 
贬值 ， 数 量 再 多 也 算 不 上 大 数据 ， 只 有 获取 网 络 世 界 中 全 面 的 数据 才 有 深度 整合 利用 的 
价值 。 正 因 如 此 ， 传 统 金融 企业 就 大 可 不 必 邯 郸 学 步 ， 重 复 互 联网 运营 商 走 过 的 道路 ， 
非 要 先 建立 各 种 非 本 业 服务 以 获取 本 业 之 外 的 数据 。 
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笔者 认为 ， 传 统 金融 业 在 新 的 历史 环境 中 面临 机 遇 与 挑战 ， 因 此 ， 必 须 利 用 大 数据 
的 理念 改造 自身 。 抓 住 大 数据 的 机 会 ， 是 中 国 金融 业 新 时 代 的 使 命 所 在 ， 企 业 可 以 利用 
自身 优势 探索 一 条 新 路 。 
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专家 提醒 
与 其 他 传统 产业 相 比 ， 金 融 服务 业 是 电子 化 、 网 络 化 和 数据 化 程度 最 高 的 产业 之 一 ， 也 
许 仅 次 于 网 络 和 电信 业 。 由 长 期 的 金融 服务 积累 的 数据 完全 可 以 在 确保 用 户 隐私 和 商业 机 密 
的 前 提 下 ， 与 各 行 各 业 共享 ， 通 过 交换 和 买卖 以 生成 大 数据 ， 在 此 之 上 探索 全 新 的 产品 和 
服务 。 


13.1.2 ”大 数据 时 代 下 金融 业 的 机 遇 和 面临 的 挑战 


金融 业 是 最 重视 信息 科技 的 行业 之 一 ， 但 是 大 数据 时 代 狂 然 来 临 也 让 金融 业 措 手 不 
及 。 大 型 的 电子 商务 公司 在 小 额 支付 、 小 额 贷 款 、 供 应 链 金 融 等 领域 突飞猛进 的 发 展 ， 
甚至 让 大 型 银行 都 有 了 切肤之痛 。 

大 数据 时 代 的 来 临 ， 意 味 着 机 遇 ， 也 意味 着 挑战 。 尽 管 我 们 无 法 准确 预 判 大 数据 最 
终 会 对 金融 业 产生 什么 影响 ， 但 深入 研究 大 数据 时 代金 融 业 的 机 遇 和 挑战 ， 有 利于 金融 
行业 在 大 数据 时 代 趋 利 避 害 。 

1， 大 数据 时 代 下 金融 业 的 机 遇 

在 大 数据 时 代 ， 人 金融 行业 主要 有 4 方面 的 机 遇 ， 如 表 13-1 所 示 。 
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表 13-1 金融 行业 在 大 数据 时 代 的 机 遇 

机 遇 说 了 明 
满足 客户 需求 是 金融 企业 生存 和 发 展 的 前 提 , 大 数据 和 互联 网 的 发 展 使 金融 业 
能 够 更 好 地 满足 客户 需求 。 大 数据 技术 在 营销 领域 的 应 用 将 能 更 有 效 地 发 现 客 
户 和 客户 的 潜在 需求 ， 进 行 精准 营销 ， 特 别 是 投资 理财 中 标准 化 产品 的 营销 。 
大 数据 和 互联 网 的 运用 也 有 利于 改善 消费 者 的 用 户 体验 ， 提 高 消费 者 满意 度 ， 
改善 行业 形象 
大 数据 技术 在 风险 管理 领域 的 应 用 将 支持 金融 业 更 精准 的 定价 原则 , 提高 投资 
风险 识别 能 力 ， 提 升 金 融 业 的 风险 管理 能 力 和 水 平 。 以 精算 为 例 ， 大 数据 有 利 
于 扩大 用 于 估算 风险 概率 的 数据 样本 ， 从 而 提升 精算 的 准确 度 ， 有 利于 收集 更 
加 多 维 全 面 的 数据 ， 从 而 形成 更 加 科学 的 精算 模型 ， 也 有 利于 把 整体 数据 样本 
进一步 细 分 为 子 样本 ， 为 精准 定价 提供 精算 基础 
提升 行业 差异 | 大 数据 通过 对 客户 消费 行为 模式 的 分 析 ， 提 高 客户 转化 率 ,， 开发 出 不 同 的 理财 
化 竞争 能 力 “| 产品 ， 满 足 不 同 客户 的 市 场 需求 ， 实 现 差异 化 竞争 
提升 今 融 业 资 | 大 数据 基于 精确 量化 的 投资 分 布 ， 可 以 提升 金融 机 构 资产 负债 管理 水 平 ， 可 以 

a 在 资本 市 场 实 施 更 精准 的 风险 投资 组 合 策略 , 提高 金融 业 在 资本 市 场 的 投资 回 
金 运用 水 平 报 水 平 


拓宽 行业 发 展 


空间 


提高 行业 风险 
管理 能 力 
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2. 大 数据 时 代 下 金融 业 面临 的 挑战 
在 看 到 机 遇 的 同时 , 必须 看 到 大 数据 时 代金 融 业 还 面临 一 些 严峻 挑战 ,， 如 表 13-2 所 示 。 


表 13-2 金融 行业 在 大 数据 时 代 的 挑战 
说 ”了 明 

虽然 我 国 金融 市 场 不 断 涌现 创新 产品 ， 但 总 体 上 是 延续 了 发 达 金 融 市 场 发 展 的 
脉络 。 但 大 数据 对 思维 方式 的 冲击 可 能 是 颠覆 性 的 。 例 如 ,“ 阿 里 小 贷 ” 对 银行 
的 影响 给 我 们 很 多 启示 。 在 技术 剧烈 变化 的 条 件 下 ， 如 果 思 维 方式 跟 不 上 ， 企 
业经 营 或 资金 监管 都 可 能 出 大 问题 
这 些 年 ， 金 融 业 在 大 数据 战略 和 网 络 经 营 等 方面 进行 了 积极 探索 ， 但 总 体 上 保 
险 业 大 数据 的 基础 还 很 弱 ， 和 互联 网 等 行业 相 比 差距 很 大 。 同 时 ， 不 同 主体 间 
大 数据 应 用 能 力 存 在 较 大 差异 。 各 大 金融 主体 挖掘 内 部 数据 ， 收 集 外 部 数据 ， 
对 数据 分 析 和 处 理 ， 发 现 数据 背后 价值 的 能 力 良 劳 不 齐 ， 这 将 直接 影响 金融 市 
场 核心 竞争 力 
在 大 数据 时 代 ， 与 拥有 数据 的 信息 产业 相 比 ， 金 融 业 将 处 于 相对 不 利 的 市 场地 
位 ， 金 融 业 面临 来 自 互 联网 企业 和 科技 公司 业务 分 割 的 竞争 压力 ， 金 融 行业 的 
生存 空间 受到 挤 压 ， 其 竞争 力 可 能 弱化 
现在 ， 高 端 信息 技术 人 才 匮 乏 是 制约 金融 业 发 展 的 重要 因素 之 一 ， 在 大 数据 时 
代 ， 人 金融 业 在 人 才 上 的 问题 显得 更 加 突出 


挑战 


思维 方式 
面临 冲击 


数据 基础 
比较 薄弱 


外 部 竞争 
可 能 加 剧 
人 才 储 备 
严重 不 足 


13.1.3 ”金融 业 该 如 何 “迎战 ”大 数据 


IT 技术 和 金融 产业 ， 和 貌似 是 两 个 完全 不 相同 的 领域 , 却 隐藏 着 密切 的 联系 。 大 数据 处 
理 作为 时 下 最 热门 的 IT 技术 之 一 ， 随 着 数据 仓库 、 数 据 安 全 、 数 据 分 析 以 及 数据 挖掘 等 
等 围绕 大 数据 的 商业 价值 的 利用 逐渐 成 为 业内 人 士 争 相 谈论 的 利润 焦点 。 在 这 些 纷繁 杂乱 
的 数据 背后 ， 它 能 找到 更 符合 用 户 兴 趣 爱 好 的 产品 与 服务 ， 并 实时 对 产品 与 服务 进行 跟踪 
性 的 调整 和 优化 ， 这 就 是 大 数据 对 我 们 所 带 来 的 影响 ， 从 而 更 进一步 地 影响 着 各 个 行业 。 

因此 ， 大 数据 必然 引发 金融 行业 的 重要 变革 ， 金 融 业 应 在 战略 层面 重视 大 数据 时 代 
的 到 来 ， 并 以 此 为 契机 提升 金融 行业 的 创新 能 力 、 服 务 能 力 和 风险 管理 能 力 ， 完 善 保险 
监管 体系 ， 如 表 13-3 所 示 。 


表 13-3 金融 业 在 大 数据 时 代 的 战略 


发 展 战略 具体 说 明 


金融 企业 要 结合 自身 的 实际 需求 , 研究 制定 大 数据 战略 , 统筹 规划 大 数据 应 

用 ， 主 要 表现 在 以 下 3 个 方面 : 

> 营造 数据 文化 。 将 现 有 数据 转化 为 信息 资源 ， 让 决策 更 加 有 的 放 矢 ， 让 
发 展 更 加 贴近 市 场 


建立 适应 大 数据 
时 代 要 求 的 数据 
治理 架构 


续 表 


发 展 战 略 具体 说 了 明 

> 有 效 管理 数据 。 进 一 步 健 全 数据 管理 决策 机 制 和 内 部 协调 机 制 ， 提 高 
建立 适应 大 数据 时 数据 管理 制度 的 可 操作 性 和 执行 力 
代 要 求 的 数据 治理 | > 挖掘 监管 数据 。 要 提高 数据 采集 能 力 、 分 析 能 力 和 使 用 能 力 ， 把 大 量 
架构 沉睡 的 数据 变 为 有 利于 改进 监管 的 信息 ， 为 实施 动态 监管 、 过 程 监管 

和 实时 监管 ， 提 升 监 管 的 针对 性 和 有 效 性 提供 数据 和 技术 支撑 

利用 大 数据 技术 开 淆 各 如 寻 再 访 术 的 汉 用 > 可 愉 汪 守卫 业 如 估计 邯 的 % 这 才 的 贱 直下 
发 更 多 金融 产品 大 数据 处 理 技术 的 运用 ， 可 以 帮助 金融 机 构 根 据 客户 的 习惯 、 喜 好 ， 开 发 


加 快 建设 适应 大 
数据 时 代 要 求 的 
信息 化 基础 


利用 大 数据 技术 改 
善 银行 客户 关系 


进一步 加 强 与 互 
联网 公司 、 数 据 公 
司 的 合作 


更 多 适合 客户 的 个 性 化 产品 ， 实 现 “ 一 对 一 ”的 自助 服务 

实现 大 数据 运用 的 根本 和 前 提 是 基础 设施 建设 。 在 大 数据 时 代 ， 必 然 要 求 
金融 机 构 增 加 信息 化 基础 设施 投入 ， 这 样 才 更 易于 数据 的 整合 与 集中 、 扩 
展 与 伸缩 、 管 理 与 维护 ， 同 时 基础 设施 要 具备 极 高 的 可 靠 性 、 可 控 性 和 安 
全 性 。 为 此 ， 金 融 业 必须 要 建立 适应 大 数据 时 代 要 求 的 信息 化 基础 架构 ， 
搭建 基础 数据 技术 平台 。 要 统筹 好 历史 数据 和 当前 采集 数据 的 关系 ， 统 筹 
好 大 数据 背景 下 精算 技术 、 统 计 技 术 和 数据 挖掘 技术 的 融合 ， 统 筹 好 结构 
化 数据 和 非 结 构 化 数据 的 采集 、 分 析 和 使 用 ， 充 分 挖掘 历史 积累 保险 数据 
的 潜在 价值 ， 积 极 学 习 运用 大 数据 技术 提升 分 析 现实 数据 的 能 力 

要 有 针对 性 地 改进 客户 服务 ， 就 必须 了 解 客户 的 潜在 需求 ， 对 客户 的 维护 
过 程 进行 及 时 的 响应 。 金 融 行业 对 数据 的 存储 要 求 特别 高 ， 诸 如 银行 、 证 
券 、 保 险 等 金融 领域 ， 每 天 都 会 产生 大 量 的 数据 ， 这 些 数据 都 会 被 一 一 存 
放 在 交易 系统 里 ， 金 融 机 构 要 做 的 努力 就 是 对 这 些 数据 进行 深入 的 挖掘 和 
全 面 的 分 析 , 从 而 大 大 提高 工作 效率 和 风险 防范 能 力 , 进而 改进 客户 服务 ， 
提升 金融 行业 的 恤 利 水 平 。 例 如 ， 银 行 可 以 通过 结构 化 数据 为 客户 提供 服 
务 ， 根 据 客户 的 交易 信息 、 历 史记 录 来 分 析 客 户 的 理财 习惯 。 通 过 借助 大 
数据 处 理 技 术 ， 使 金融 行业 的 服务 具有 “3A” 特 性 ， 即 Anytime (任何 时 
候 )、Anywhere〔〈 任 何 地 方 )、Anyhow (以 任何 方式 ) 为 客户 提供 金融 服 
务 ， 从 而 吸引 和 留 住 更 多 的 优质 客户 ， 扩 大 客户 群 ， 开 辟 新 的 盈利 增长 点 
互联 网 公司 和 数据 公司 既是 金融 业 发 展 的 重要 参与 者 ， 也 是 金融 市 场 主体 
合作 共 赢 的 重要 对 象 。 大 数据 时 代 对 金融 业 驾 驭 数据 能 力 提出 了 更 高 的 要 
求 。 金 融 市 场 主体 不 仅 要 收集 行业 的 内 部 数据 ， 更 要 依靠 互联 网 公司 和 数 
据 公 司 收集 外 部 数据 。 金 融 机 构 要 切实 加 强 同 互联 网 公司 和 数据 公司 的 战 
略 合作 ， 提 高 内 外 部 数据 信息 的 整合 能 力 


防范 大 数据 时 代 
的 信息 安全 风险 


大 数据 意味 着 来 自 多 方面 的 海量 数据 ， 也 意味 着 数据 处 理 软 硬件 环境 更 加 
复杂 。 集 中 的 数据 更 复杂 、 更 敏感 ， 更 易 成 为 攻击 者 的 目标 ， 常 规 的 安全 
管理 策略 ， 已 无 法 满足 安全 要 求 。 各 金融 机 构 都 要 严格 遵守 监管 机 构 和 信 
息 化 主管 部 门 制定 的 规章 制度 ， 进 一 步 完 善信 息 化 治理 ， 强 化 责任 落实 ， 
加 强 信息 安全 培训 ， 提 升 信息 安全 意识 ， 完 善信 息 安全 预警 和 应 急 响 应 机 
制 ， 进 一 步 健全 与 大 数据 时 代 相 适应 的 信息 安全 保障 体系 
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续 表 

发 展 战 略 具体 说 了 明 

数据 科学 是 一 门 交叉 学 科 ， 涉 及 数学 、 统 计 学 、 计 算 机 科学 、 数 据 可 视 化 

引进 与 培养 金 。” | 技术 以 及 各 领域 专业 知识 。 大 数据 的 运用 ， 关 键 还 是 人 才 。 无 论 是 基础 建 

融 业 大 数据 专 “| 设 ， 还 是 数据 分 析 与 系统 维护 ， 都 需要 专业 的 数据 人 才 。 各 金融 机 构 要 加 

业 人 才 大 力气 ， 售 得 投入 ， 抓 好 大 数据 人 才 的 引进 与 培养 ， 打 造 一 支 数 量 充足 、 

结构 合理 、 素 质 优 良 、 表 现 卓 越 的 复合 型 专业 人 才 团 队 

大 数据 时 代 给 金融 行业 发 展 带 来 深刻 影响 的 同时 ， 也 对 金融 监管 制度 提出 

更 高 的 要 求 。 金 融 监 管 机 构 要 顺应 大 数据 时 代 的 潮流 ， 为 行业 创新 发 展 营 

造 良好 环境 ， 主 要 从 以 下 4 个 方面 做 起 : 

> ”强化 基础 建设 。 建立 大 数据 质量 标准 ， 消 除 壁垒， 推进 信息 共享 ， 建 立 
信息 隐私 保护 制度 ， 加 强 信息 安全 的 保护 ,建立 安全 有 效 的 大 数据 共享 
使 用 环境 

> ”鼓励 包容 创新 。 以 开放 的 心态 ,支持 金融 机 构 运用 大 数据 进行 产品 、 服 
务 、 管 理 等 方面 的 有 益 创新 ， 并 在 监管 上 及 时 跟 进 

> 完善 监管 制度 。 对 金融 市 场 基于 大 数据 的 新 事物 新 探索 , 适时 制定 监管 
制度 加 以 规范 ,减少 监管 死角 和 监管 真空 ， 保 护 消费 者 合法 权益 ， 同 时 
也 要 避免 过 度 监管 

> 注意 创新 风险 。 加 强 对 风险 的 预警 跟踪 , 对 大 数据 条 件 下 的 新 风险 保持 
足够 的 敏感 和 警惕 ， 促 进 金融 市 场 可 持续 健康 发 展 

金融 行业 要 想 不 断 发 展 就 离 不 开 大 数据 处 理 技术 ， 大 数据 处 理 技术 在 存储 

和 处 理 结构 框架 等 方面 的 优势 将 帮助 金融 行业 充分 掌握 业务 数据 的 价值 ， 

降低 运营 成 本 ,发掘 新 的 便利 模式 ， 为 客户 提供 更 为 全 面 、 贴 心 的 金融 服 

务 。 金 融 行业 必须 始终 坚持 “以 客户 为 中 心 ”的 服务 理念 ， 以 “大 数据 处 

理 技 术 ” 作 为 支撑 ， 满 足 客户 的 多 样 化 需求 ， 实 现 客户 服务 的 最 大 价值 


创造 良好 的 大 数 
据 时 代 监 管 环境 


有 效 利 用 大 数据 
技术 提升 金融 机 
构 的 服务 效率 


笔者 认为 ， 使 用 大 数据 金融 的 概念 ， 制 定 并 实施 大 数据 金融 战略 ， 更 能 体现 金融 业 
自身 的 实力 和 潜力 ， 也 更 能 与 网 络 业 及 其 他 行业 有 机 融合 ， 平 等 竞争 ， 在 大 数据 时 代 找 
到 自身 生存 发 展 的 机 会 也 更 大 。 


13.2 ”金融 行业 大 数据 应 用 案 倒 


如 今 ， 金 融 业 面临 众多 前 所 未 有 的 跨 界 竞争 对 手 ， 市 场 格局 、 业 务 流程 将 发 生 巨大 
改变 ， 企 业 更 替 兴 衰 ; 未 来 的 金融 业 ， 业 务 就 是 IT，IT 就 是 业务 ; 金融 业 将 开展 新 一 轮 
围绕 大 数据 、 移 动 化 、 云 的 IT 建设 投资 。 本 节 主 要 介绍 金融 行业 大 数据 的 应 用 案例 ， 希 
望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


13.2.1 【过 例 】 淘 宝 网 气 金 大 数据 金融 市 场 


随 着 国内 网 购 市 场 的 迅速 发 展 ， 淘 宝 网 等 众多 网 购 网 站 的 市 场 争夺 战 也 进入 白热化 


状态 ， 网 络 购物 网 站 也 开始 推出 越 来 越 多 的 特色 产品 和 服务 。 
1. 余额 宝 


以 余额 宝 为 代表 的 互联 网 金融 产品 在 2013 年 刊 起 一 股 旋风 ,截至 目前 ,规模 超 1000 


亿 元 ， 用户 近 3000 万 ， 如 图 13-1 所 示 。 相 比 普 通 的 货币 基金 ， 余 额 宝 鲜明 的 特色 当 属 
大 数据 。 以 基金 的 申购 、 赎 回 预测 为 例 ， 基 于 淘宝 和 支付 宝 的 数据 平台 ， 可 以 及 时 把 握 


申购 、 赎 回 变动 信息 。 另 外 ， 利 用 历史 数据 的 积累 可 把 握 客户 的 行为 规律 。 


5.3566% 


or 
0 .00 


转 入 
图 13-1 余额 宝 手机 端 界面 


2.， 淘宝 信 用 贷款 
淘宝 网 在 聚 划算 平台 推出 了 一 个 奇怪 的 团购 “商品 ” 


淘宝 信用 贷款 。 开 团 不 到 


10 分 钟 ，500 位 淘宝 卖家 就 让 这 一 团购 “ 爆 团 "。 他 们 有 望 分 享 总 额 约 3000 万 元 的 淘宝 
信用 贷款 ， 并 能 享受 贷款 利息 7.5 折 的 优惠 。 据 悉 ， 目 前 已 经 有 近 两 万 名 淘宝 卖家 申请 


过 淘宝 信用 贷款 ， 贷 款 总 额 超过 14 亿 元 。 
淘宝 信用 贷款 是 阿里 金融 旗下 专门 针对 淘宝 卖家 进行 金融 支持 的 贷款 产品 。 淘 宝 


四 


台 通 过 以 卖家 在 淘宝 网 上 的 网 络 行为 数据 做 一 个 综合 的 授信 评分 ， 卖 家 纯 赁 信用 拿 贷 
款 ， 无 需 抵押 物 ， 无 需 担 保 人 。 由 于 其 非常 吻合 中 小 卖家 的 资金 需求 ， 且 重视 信用 无 担 


保 、 抵 押 的 门槛 ， 更 加 上 其 申请 流程 非常 便捷 ， 仅 需要 线 上 申请 ， 几 分 钟 内 就 能 获 贷 ， 


被 不 少 卖家 戏称 为 “史上 最 轻松 的 贷款 "， 也 成 为 淘宝 网 上 众多 卖家 进行 资金 周转 的 重 
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要 手段 。 

3.， 阿里 小 贷 

淘宝 网 的 “阿里 小 贷 ” 更 是 得 益 于 大 数据 ， 它 依托 阿里 巴巴 ( B2B )、 淘 宝 、 支 付 宝 
等 平台 数据 ， 不 仅 可 有 效 识别 和 分 散 风 险 ， 提 供 更 有 针对 性 、 多 样 化 的 服务 ， 而 且 批 量 
化 、 流 水 化 的 作业 使 得 交易 成 本 大 幅 下 降 。 

每 天 ,海量 的 交易 和 数据 在 阿里 的 平台 上 跑 着 ， 阿 里 通过 对 商户 最 近 100 天 的 数据 
分 析 ， 就 能 知道 哪些 商户 可 能 存在 资金 问题 ， 此 时 的 阿里 贷款 平台 就 有 可 能 出 马 ， 同 潜 
在 的 贷款 对 象 进行 沟通 。 

【 案例 解析 }， 通 常 来 说 ， 数 据 比 文字 更 真实 ， 更 能 反映 一 个 公司 的 正常 运营 情况 。 

通过 海量 的 分 析 得 出 企业 的 经 营 情况 ， 这 就 是 大 数据 的 应 用 。 在 本 案例 中 ， 正 像 淘 宝 信 
用 贷款 所 体现 的 那样 ， 这 种 新 型 微 贷 技术 不 依赖 抵押 、 担 保 ， 而 是 看 重 企业 的 信用 ， 同 
时 通过 数据 的 运算 来 评 核 企 业 的 信用 ， 这 不 仅 降低 了 申请 贷款 的 门槛 ， 也 极 大 简化 了 申 
请 贷款 的 流程 ， 使 其 有 了 完全 在 互联 网 上 作业 的 可 能 性 。 
大 数据 的 价值 已 经 得 到 互联 网 公司 以 及 金融 机 构 的 认可 , 笔者 认为 :“ 谁 掌握 的 “ 拼 
图 ' 图 块 多 ， 谁 就 能 快速 拼 出 客户 的 图 谱 ， 成 为 真正 的 王者 。” 然而， 目前 来 看 ， 谁 都 
不 愿意 轻易 地 交 出 自己 手 上 的 “拼图 ”"， 于 是 ， 互 联网 公司 、 银 行 、 支 付 机 构 等 各 个 海 
量 数据 的 拥有 者 展开 了 激烈 的 金融 数据 争夺 战 。 


13.2.2 【案例 】 IBM 用 大 数据 预测 股价 走势 


不 久 前 ，IBM 使 用 大 数据 信息 技术 成 功 开发 了 “经 济 指标 预测 系统 "。 借 助 该 预测 
系统 ， 可 通过 统计 分 析 新 闻 中 出 现 的 单词 等 信息 来 预测 股价 等 走势 。 

IBM 的 “经 济 指标 预测 系统 ”首先 从 互联 网 上 的 新 闻 中 搜索 与 “新 订单 ”等 与 经 济 
指标 有 关 的 单词 ， 然 后 结合 其 他 相关 经 济 数据 的 历史 数据 分 析 与 股价 的 关系 ， 从 而 得 出 
预测 结果 。 

在 “经 济 指标 预测 系统 ”的 开发 过 程 中 ，IBM 还 进行 了 一 系列 的 验证 工作 。IBM 以 
美国 “ISM 制造 业 采购 经 理 人 指数 ”为 对 象 进行 了 验证 试验 ， 该 指数 以 制造 业 中 的 大 约 
20 个 行业 、300 多 家 公司 的 采购 负责 人 为 对 象 , 调查 新 订单 和 雇员 等 情况 之 后 计算 得 出 。 
实验 前 ， 首 先 假设 “ 受 访 者 受到 了 新 闻 报 道 的 影响 "， 然 后 分 别 计 算出 约 30 万 条 财经 类 
新 闻 中 出 现 的 “新 订单 "、“ 生 产 ” 以 及 “雇员 ”等 5 个 关键 词 的 数量 。 追 踪 这 些 关键 词 
在 这 段 时 期 内 的 搜索 数据 变化 情况 ， 并 将 数据 和 道 指 的 走势 进行 对 比 ， 从 而 预测 该 指数 
的 未 来 动态 。 

IBM 研究 称 ， 一 般 而 言 ， 当 “股票 "、“ 营 收 ” 等 金融 词汇 的 搜索 量 下 降 时 ， 道 指 随 
后 将 上 涨 ， 而 当 这 些 金融 词汇 的 搜索 量 上 升 时 ， 道 指 在 随后 的 几 周 内 将 下 跌 。 


D> 


据悉 ，IBM 的 试验 仅 用 了 6 小 时 ， 就 计算 出 了 分 析 师 需要 花费 数 日 才能 得 出 的 预测 
值 ， 而 且 预 测 精度 几乎 一 样 。 

【 案例 解析 ]， 从 本 案例 可 以 看 出 ， 大 数据 不 再 仅仅 局 限 在 媒体 与 厂商 之 间 的 讨论 ， 
它 犹 如 一 场 数据 旋风 开始 席卷 全 球 , 从 各 行 各 业 的 IT 主管 到 政府 部 门 都 开始 重视 大 数据 
及 其 价值 。 

目前 ， 不 少 信息 系统 企业 都 在 使 用 大 数据 信息 技术 开发 预测 系统 。 例 如 ，2011 年 ， 
英国 对 冲 基 金 Derwent Capital Markets 建立 了 规模 为 4000 万 美金 的 对 冲 基 金 ， 该 基金 
是 首 家 基于 社交 网 络 的 对 冲 基 金 , 该 基金 通过 从 Twitter 的 数据 内 容 来 感知 市 场 情绪 ,从 
而 进行 投资 。 无独有偶 , 美国 加 州 大 学 河 滨 分 校 也 公布 了 一 项 通过 对 Twitter 消息 进行 分 
析 从 而 预测 股票 涨 跌 的 研究 报告 。 

笔者 认为 :“ 企 业 数 据 就 是 新 时 代 还 未 开采 的 石油 ， 具 有 非常 之 高 的 价值 。 国外 一 
些 金融 机 构 已 经 开始 做 一 些 前 瞻 性 的 研究 了 ， 这 种 做 法 是 非常 值得 国内 金融 机 构 学 习 和 
借鉴 的 。 例 如 ， 国 内 大 部 分 证 券 公司 仍然 没有 摆脱 交易 性 数据 为 主 的 特点 ， 但 很 多 有 前 
瞻 意 识 的 证 券 公司 已 经 开始 做 一 些 转型 了 ， 对 微 博 、 互 联网 等 外 部 数据 进行 一 些 分 析 与 
预测 。 


13.2.3 【案例 】 汇 丰 银 行 采用 SAS 管理 风险 


近日 ,汇丰 银行 选择 SAS 防 欺 诈 管理 解决 方案 构建 其 全 球 业 务 网 络 的 防 欺诈 管理 系 
统 。 据 悉 ， 这 一 解决 方案 是 一 种 实时 欺诈 防范 侦 测 系统 。 

SAS 被 誉 为 “全 球 500 强 背 后 的 管理 大 师 ”"， 是 全 球 领先 的 商业 分 析 软 件 与 服务 供 
应 商 。SAS 通过 三 部 分 服务 ( 包括 软件 及 解决 方案 服务 、 咨 询 服务 、 培 训 及 技术 支持 服 
务 ) 帮助 客户 洞察 商机 ， 成 就 变革 ， 改 善 业 绩 。 

凭借 丰富 的 行业 专业 知识 , SAS 的 行业 解决 方案 在 各 领域 为 行业 解析 蕴藏 于 信息 之 
中 的 独特 的 商业 问题 。 例 如 金融 服务 领域 的 信用 风险 管理 问题 、 生 命 科学 领域 加 快 药物 
上 市 速度 和 识别 零售 领域 的 交叉 销售 机 会 等 问题 。SAS 还 提供 跨 职能 解决 方案 ， 不 分 行 
业 地 帮助 企业 克服 其 面临 的 挑战 。 例 如 增加 客户 关系 价值 、 测 量 和 管理 风险 、 检 测 欺诈 
和 优化 IT 网 络 等 。 

汇丰 银行 与 SAS 在 防范 信用 卡 和 借 记 卡 欺诈 的 基础 上 ， 共 同 扩展 了 SAS 防 欺诈 管 
理解 决 方案 的 功能 ， 为 多 种 业务 线 和 渠道 提供 完善 的 欺诈 防范 系统 。 这 些 增强 功能 有 助 
于 全 面 监控 客户 、 账 户 和 渠道 业务 活动 ， 进 一 步 提高 分 行 交 易 、 银 行 转账 和 在 线 付款 欺 
诈 以 及 内 部 欺诈 的 防范 能 力 。 通 过 监控 客户 行为 ， 汇 丰 银 行 可 以 优化 并 更 加 有 效 地 利用 
侦 测 资源 。 

汇丰 银行 利用 SAS 系统 , 通过 收集 和 分 析 大 数据 解决 复杂 问题 , 并 获得 非常 精确 的 
洞察 ,以 加 快 信息 获取 速度 和 超越 竞争 对 手 。 因 此 , 汇丰 银行 还 将 继续 采用 SAS 告警 管 


.. 户 菇 二 


山 
海 
量 
到 
准 


| 三 半 此 消 峰 半 .型 由” 错 


丽 器 旦 哆 潭 于 . . 询 距 才 


| 二 三 六 册 济 潜 半 .更 二 ”多 


理 、 例 程 和 队列 优先 级 软件 ， 提 高 运营 效率 ， 以 便 迅速 启动 紧急 告警 。 

【 案例 解析 】]， 在 当今 这 个 海量 数据 的 时 代 ， 如 何 找到 大 数据 中 蕴含 的 前 所 未 有 的 
商业 价值 ? 笔者 认为 高 性 能 分 析 就 是 那 把 “钥匙 "。 在 本 案例 中 ，SAS 高 性 能 分 析 可 以 
帮助 用 户 : 将 相关 的 大 数据 转变 为 真正 的 商业 价值 ， 采 用 世界 项 级 的 分 析 技 术 来 生成 精 
确 的 洞察 ， 快 速 获得 答案 来 改变 企业 的 运营 模式 ， 以 及 部 署 一 个 适合 未 来 扩展 的 分 析 
架构 。 

总 之 ， 高 性 能 分 析 环境 让 用 户 可 以 充分 利用 IT 投资 , 同时 克服 原 有 架构 的 约束 ， 从 
大 数据 资产 中 产生 高 价值 的 洞察 。 


13.2.4 【案例 】 Kabbage 用 大 数据 开辟 新 路 径 


Kabbage 是 一 家 为 网 店 店主 提供 营运 资金 贷款 服务 的 创业 公司 , 总 部 位 于 美国 亚 特 
兰 大 ， 截 至 目前 已 经 成 功 融资 六 千 多 万 美元 。Kabbage 的 主要 目标 客户 是 eBay、 亚 马 
逊 、 雅 虎 、Etsy、Shopify、Magento、PayPal 上 的 美国 网 商 。 

Kabbage 与 “阿里 小 贷 ” 的 经 营 模式 类 似 ， 通 过 查看 网 店 店主 的 销售 和 信用 记录 、 
顾客 流量 、 评 论 以 及 商品 价格 和 存货 等 信息 ， 来 最 终 确 定 是 否 为 他 们 提供 贷款 以 及 贷 多 
少 金 额 ， 贷 款 金额 上 限 为 4 万 美元 。 店 主 可 以 主动 在 自己 的 Kabbage 账户 中 添加 新 的 
信息 ， 以 增加 获得 贷款 的 概率 。Kabbage 通过 支付 工具 PayPal 的 支付 API 来 为 网 店 店 
主 提供 资金 贷款 ， 这 种 贷款 资金 到 账 的 速度 相当 快 ， 最 快 十 分 钟 就 可 以 搞定 。 

Kabbage 用 于 贷款 判断 的 支撑 数据 的 来 源 除 了 网 上 搜索 和 查看 外 , 还 来 自 于 网 上 商 
家 的 自主 提供 ， 且 提供 的 数据 多 少 直接 影响 着 最 终 的 贷款 情况 。 同 时 ，Kabbage 也 通过 
与 物流 公司 UPS、 财 务 管理 软件 公司 Intuit 合作 ， 扩 充 数据 来 源 渠 道 。 

目前 ， 使 用 Kabbage 贷款 服务 的 网 店 店主 已 达 近 万 家 ，Kabbage 的 服务 范围 目前 
仅 限 于 美国 境内 ， 不 过 公司 打算 利用 这 轮 融 资 将 服务 拓展 至 其 他 国家 。 

【 案例 解析 }， 基 于 大 数据 的 商业 模式 创新 过 程 有 两 个 核心 环节 : 一 是 数据 获取 ; 
二 是 数据 的 分 析 利 用 。 在 本 案例 中 ，Kabbage 与 阿里 金融 的 区 别 在 于 数据 获取 方面 ， 前 
者 是 从 多 元 化 的 渠道 收集 数据 ， 后 者 则 是 借助 旗下 平台 的 数据 积累 ， 其 中 网 上 商家 可 自 
主 提供 数据 且 其 数据 的 多 少 直接 决定 着 最 终 的 贷款 额度 与 成 本 ， 这 充分 体现 出 大 数据 的 
资产 价值 ， 就 如 同 传统 的 抵押 物 一 样 可 以 换取 资金 。 

笔者 觉得 ， 虽 说 大 数据 是 一 座 极 具 价值 的 “ 金 矿 "， 但 如 果 不 能 科学 地 加 以 利用 ， 
那么 大 数据 就 变 成 了 一 堆 堆 毫 无 用 处 的 “石头 "，Kabbage 就 是 借助 大 数据 技术 ， 并 结 
合金 融 行业 的 特点 ， 有 效 地 控制 了 风险 ， 实 现 了 完美 融合 和 创新 。 

金融 是 服务 于 实体 经 济 的 ， 随 着 大 数据 时 代 的 到 来 ， 传 统 的 实体 经 济 形态 正在 向 融 
合 经 济 形态 转变 ， 同 时 虚拟 经 济 也 快速 兴起 ， 金 融 的 服务 对 象 必 将 随 之 发 生变 化 ， 这 种 
转变 为 金融 业 带 来 了 巨大 的 机 遇 和 挑战 ， 如 图 13-2 所 示 。 
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新 的 金融 需求 例如 ， 虚 拟 币 、 虚 拟 财产 、 退 货运 费 险 等 
图 13-2 融合 经 济 产生 新 的 金融 需求 
专家 提醒 
虚拟 经 济 (Fictitious Economy ) 是 经 济 虚 拟 化 ( 西方 称 之 为 “金融 深化 ”) 的 必然 产物 ， 

是 指 基 于 计算 机 和 互联 网 产生 的 一 种 经 济 形态 , 其 产品 和 服务 都 有 具有 虚拟 化 的 特点 ， 具 体 包 
括 软件 、 网 络 游戏 、 社 交 网 络 、 搜 索引 擎 、 门 户 网 站 等 细 分 市 场 领域 。 实 体 经 济 是 指 物质 的 、 
精神 的 产品 和 服务 的 生产 、 流 通 等 经 济 活动 。 随 着 新 兴 信 息 技术 的 快速 发 展 ， 实 体 经 济 与 虚 
拟 经 济 正在 加 速 融 合 ， 从 而 衍生 了 未 来 的 主体 经 济 形态 ， 即 融合 经 济 ， 电 子 商 务 、O20 模 
式 都 是 融合 经 济 发 展 进程 的 一 个 产物 。 


13.2.5 【案例 】 大 数据 时 代 信 用 卡 该 怎么 玩 


中 信和 银行 信用 卡 中 心 是 国内 银行 业 为 数 不 多 的 几 家 分 行 级 信用 卡 专营 机 构 之 一 ， 也 
是 国内 最 具 竞争 力 的 股份 制 商业 银行 信用 卡 中 心 之 一 。 近 年 来 ， 中 信和 银行 信用 卡 中 心 的 
发 卡 量 迅速 增长 。 

2013 年 11 月 ， 在 中 信和 银行 与 腾讯 联合 发 布 “中 信和 银行 QQ 彩 贝 联名 信用 卡 ”仪式 
上 ， 中 信 银 行 信用 卡 中 心 总 裁 陈 劲 表示 ， 该 行 信用 卡 发 卡 量 已 突破 2000 万 张 ， 未 来 将 
充分 利用 互联 网 基因 和 大 数据 技术 挖掘 客户 需求 。 

过 去 ， 中 信和 银行 信用 卡 中 心 无 论 在 数据 存储 、 系 统 维护 等 方面 ， 还 是 在 有 效 地 利用 
客户 数据 方面 ， 都 面临 巨大 的 压力 。 同 时 ， 为 了 应 对 激烈 的 市 场 竞 争 ， 中 信和 银行 信用 卡 
中 心 迫 切 需 要 一 个 可 扩展 、 高 性 能 的 数据 仓库 解决 方案 ， 支 持 其 数据 分 析 战略 ， 提 升 业 
务 的 敏捷 性 。 

2010 年 4 月 ， 中 信和 银行 信用 卡 中 心 实施 了 EMC Greenplum 数据 仓库 解决 方案 。 
Greenplum 数据 仓库 解决 方案 为 中 信和 银行 信用 卡 中 心 提供 了 统一 的 客户 视图 , 借助 客户 
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统一 视图 ， 中 信和 银行 信用 卡 中 心 可 以 更 清楚 地 了 人 解 其 客户 价值 体系 ， 从 而 能 够 为 客户 提 
供 更 有 针对 性 和 相关 性 的 营销 活动 。 

基于 数据 仓库 ， 中 信和 银行 信用 卡 中 心 现在 可 以 从 交易 、 服 务 、 风 险 、 权 益 等 多 个 层 
面 分 析 数 据 。 通 过 提供 全 面 的 客户 数据 ， 营 销 团队 可 以 对 客户 按照 低 、 中 、 高 价值 来 进 
行 分 类 ， 根 据 银行 整体 经 营 策略 积极 地 提供 相应 的 个 性 化 服务 。 

基于 Greenplum 解决 方案 在 系统 维护 方面 的 便捷 简单 ,中 信和 银行 信用 卡 中 心 每 年 减 
少 了 大 约 500 万 元 的 数据 库 维 护 成 本 ， 这 有 助 于 减少 解决 方案 的 总 拥有 成 本 。 

【 案例 解析 】: 在 本 案例 中 , Greenplum 解决 方案 采用 了 “无 共享 " 的 开放 平台 MPP 
架构 ， 此 架构 是 为 Bl 和 海量 数据 分 析 处 理 而 设计 , 相 比 普通 的 数据 库 系 统 , 该 系统 提供 
了 更 高 的 可 扩展 性 。 与 其 他 产品 相 比 ，Greenplum 解决 方案 可 以 给 中 信和 银行 信用 卡 中 心 
提供 最 高 级 别 的 性 能 。 同 时 ， 该 解决 方案 与 银行 所 使 用 的 硬件 、 应 用 程序 和 数据 源 实现 
了 有 效 集成 。 此 外 ，Greenplum 解决 方案 通过 把 数据 集中 在 一 个 统一 的 平台 ， 极 大 地 减 
少 了 系统 维护 的 工作 量 。 

笔者 认为 ， 大 数据 对 信用 卡 产品 的 营销 具有 很 大 的 促进 作用 。 例 如 ， 在 大 数据 的 环 
境 下 ， 银 行 可 以 利用 先进 的 互联 网 、 云 计算 等 新 兴 技 术 ， 对 消费 者 的 刷卡 行为 进行 数据 
化 的 分 类 、 统 计 ， 通 过 整理 数据 获取 消费 者 的 消费 习惯 、 消 费 能 力 、 消 费 偏好 等 非常 重 
要 的 数据 信息 。 通 过 客户 数据 、 财 务 数据 来 区 隔 客 户 ， 通 过 消费 区 域 定 位 、 内 容 定向 ， 
知晓 他 们 的 消费 习惯 ， 然 后 进行 深入 地 数据 分 析 挖掘 和 展开 精准 营销 。 
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学 前 提示 

坐 在 家 里 ， 打 开 手 机 就 能 知道 高 架 是 否 拥堵 ; 开车 上 路 ， 提 前 几 个 路 口 就 能 收 到 关 
于 路 况 的 短信 提醒 …… 这 一 切 ， 已 经 变 成 现实 。 大 数据 的 分 析 和 应 用 还 将 在 道路 交通 中 
发 挥 更 大 作用 。 当 交通 遇 上 大 数据 ， 智 能 交通 便 应 运 而 生 。 


要 和 点 展示 
《< ”交通 行业 大 数据 解决 方案 
《< ”交通 行业 大 数据 应 用 案例 


14.1 “交通 行业 大 数据 解决 方案 


. 呈 噬 才 


出 门 堵车 ， 出 租车 打 不 到 …… 每 每 出 门 这 些 烦 恼 都 会 困扰 着 我 们 ， 智 能 交通 已 经 不 
仅仅 是 一 种 畅想 ， 而 是 每 个 人 都 亚 待 享受 到 的 便利 。 车 驶 在 路 上 ， 人 走 在 街 边 ， 不 知 不 
觉 中 他 们 都 成 为 智能 交通 中 的 大 数据 ,“ 解 铃 还 须 系 铃 人 "， 智 能 交通 需要 大 数据 来 给 出 
答案 。 


14.1.1 5 大 日 益 突出 的 城市 交通 难题 


随 着 我 国 城市 人 口 的 增多 和 汽车 的 增加 ， 城 市 交通 问题 日 益 突出 。 在 许多 大 城市 ， 
由 于 过 量 的 汽车 ， 经 常 导致 交通 阻塞 ， 交 通 事故 频 发 ， 大 气 遭 到 污染 等 。 交 通 问题 已 经 
给 城市 社会 经 济 发 展 带 来 了 严重 影响 。 如 表 14-1 所 示 为 大 城市 主要 存在 的 交通 问题 。 
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表 14-1 大 城市 主要 存在 的 交通 问题 


交通 问题 产生 原因 和 危害 

人 们 经 常 把 容易 塞车 的 道路 ， 称 为 交通 瓶颈 或 交通 楼 颈 )。 相 对 于 道路 网 的 

承载 力 来 说 ,汽车 数量 过 多 ， 是 诱发 交通 阻塞 的 主要 原因 。 从 某 种 程度 上 说 ， 

交通 阻塞 是 汽车 社会 的 产物 。 在 人 们 上 下 班 的 高 峰 期 ， 交 通 阻塞 现象 尤为 明 

交通 阻塞 显 , 在 很 多 大 城市 中 心 区 ， 高峰 期 交通 速度 每 小 时 仅 有 16km。 交 通 阻 塞 导致 

时 间 和 能 源 的 严重 浪费 ， 影 响 城市 经 济 的 发 展 。 在 大 城市 ， 汽 车 数量 的 增长 

速度 远 远 高 于 道路 的 建设 速度 ， 道 路 的 建设 和 汽车 的 增加 有 可 能 形成 恶性 循 

环 ， 导 致 更 为 严重 的 交通 阻塞 

交通 事故 是 许多 大 城市 日 趋 严重 的 问题 。 交 通 事故 不 但 导致 了 对 贵重 医疗 设 

交通 事故 施 需 求 的 增加 , 而 且 使 受伤 者 痛苦 不 堪 。 据 统计 , 仅 1978 年 , 美国 就 有 52653 

人 死 于 机 动车 事故 

公共 交通 问题 主要 表现 在 以 下 两 个 方面 

> ”由 于 对 公共 交通 投资 不 足 ， 致 使 峰值 期 人 们 对 公共 交通 的 需求 大 于 供给 ， 
造成 交通 拥挤 

> 由 于 对 公共 交通 的 需求 波动 大 ， 高 峰 期 过 于 拥挤 ， 而 非 高 峰 期 使 用 又 不 
充分 ， 造 成 收入 锐 减 

由 此 可 见 ， 高 峰 时 间 和 非 高 峰 时 间 的 公共 交通 是 一 对 难以 解决 的 矛盾 。 如 果 

增加 投资 来 满足 高 峰 期 人 们 对 公共 交通 的 需求 ， 那 么 在 非 高 峰 时 间 ， 这 些 公 

共 交 通 设施 大 部 分 将 处 于 闲置 状态 ， 造 成 浪费 。 在 发 达 国 家 ， 这 种 情况 一 方 

面 对 于 公共 交通 工具 依赖 性 较 大 的 低 收入 阶层 是 一 个 打击 ， 另 一 方面 又 促进 

了 中 产 阶级 甚至 低 收入 阶层 对 小 汽车 的 依赖 性 。 这 又 使 公共 交通 进一步 萎缩 ， 

形成 恶性 循环 。 在 发 展 中 国家 ， 则 使 公共 交通 高 峰 时 间 的 拥挤 现象 更 为 严重 ， 

从 而 加 剧 了 城市 交通 问题 


ES 


公共 交通 


续 表 
交通 问题 产生 原因 和 危害 
步行 或 骑 自 行车 在 目前 仍然 是 一 种 重要 的 交通 方式 , 交通 量 很 大 。 据 调查 ， 
在 伦敦 南部 ， 人 们 上 下 班 之 外 的 行程 中 ，50% 以 上 的 人 是 靠 步 行 。 现 在 ， 
很 多 城市 都 在 为 改善 道路 交通 进行 规划 ， 如 加 宽 机 动车 道 ， 但 却 很 少 考虑 
步行 者 的 需求 。 例 如 ， 在 一 些 城市 ， 为 了 照顾 汽车 ， 人 行道 变 窄 了 ， 交 通 
安全 岛 取消 了 ， 不 设置 穿越 马路 的 绿灯 信号 ， 机 动车 辆 被 允许 停放 在 人 行 
道上 或 道 旁 ， 这 些 都 给 步行 者 带 来 麻烦 和 危险。 最 主要 的 是 ， 步 行者 还 必 
须 忍受 噪声 、 烟 雾 、 汽 油 味 等 污染 ， 严 重 影响 身体 健康 。 现 在 ， 很 多 大 城 
市 已 开始 着 手 解决 步行 者 问题 ， 如 规定 在 中 心 商业 区 一 些 重要 街道 上 禁止 
车 辆 通行 ， 设 为 步行 街 或 步行 区 ; 在 市 中 心 除 公共 汽车 外 ， 其 他 车 辆 白天 
均 不 得 通过 等 ， 但 解决 的 力度 还 远 远 不 够 
当 汽 车 处 于 静止 状态 时 , 就 要 占据 一 定 空间 , 汽车 越 多 占据 的 空间 就 越 大 。 
在 城市 中 心 区 ， 人 多 车 多 空间 少 ， 停 车 场 与 汽车 数量 很 不 相称 ， 停 车 也 最 
困难 。 尽 管 近 十 多 年 来 在 市 区 建 了 许多 多 层 停车 场 ， 但 仍 满足 不 了 停车 需 
求 。 于 是 很 多 城市 通过 颁布 法 令 ， 限 制 在 市 中 心 区 停车 ， 以 控制 进入 市 中 
心 区 汽车 的 数量 ， 但 这 些 措施 并 没有 解决 停车 问题 。 因 此 ， 如 何 有 效 地 解 
决 停车 问题 仍 在 探讨 中 


步行 者 问题 ( 包 
括 非 机 动车 ) 


停车 困难 


专家 提醒 

例如 ， 美国 政府 曾 在 20 世纪 70 年 代 中 期 制定 过 一 个 方案 ,迫使 个 人 使 用 公共 汽车 来 代 
替 小 汽车 。 但 很 多 人 反对 这 个 方案 , 认为 这 样 会 减少 家 庭 小 汽车 的 数量 , 从 而 改变 消费 模式 ， 
减少 就 业 机 会 ,会 导 臻 失业、 福利、 职业 培训 和 贫困 等 问题 出 现 。 另外， 发 展 公共 交通 还 需 
要 政府 大 量 补贴 ， 其 结果 将 限制 解决 其 他 问题 资金 的 流动 ， 或 者 被 迫 增加 税率 。 高 税率 将 使 
货币 从 个 人 手中 分 配 到 政府 手 里 ,从 而 可 能 造成 社会 经 济 体系 变化 ,也 增加 了 政治 不 稳定 性 。 

由 此 可 见 ， 交 通 问题 的 解决 绝 不 是 一 朝 一 夕 的 事情 。 为 此 ， 有 及时、 高效、 准确 获取 
交通 数据 是 分 析 交 通 管理 机 制 ， 构 建 合理 城市 交通 管理 体系 的 前 提 ， 而 这 一 难题 可 以 通 
过 大 数据 管理 得 到 解决 。 


14.1.2 大 数据 为 交通 难题 开 出 的 药方 


大 数据 时 代 的 到 来 ， 为 解决 交通 问题 开 出 了 有 效 “ 药 方 ”"。 与 传统 的 数据 收集 方式 
不 同 ， 云 时 代 的 大 数据 通过 对 数据 实时 收集 和 分 析 ， 得 以 实现 个 人 出 行 的 个 性 化 、 方 便 
化 和 智能 化 。 另 外 ， 大 数据 将 海量 数据 聚合 在 一 起 ， 将 离散 的 数据 需求 聚合 起 来 形成 数 
据 长 尾 ， 从 而 满足 传统 中 难以 满足 的 需求 ， 例 如 交通 需求 。 

因为 无 论 是 交通 基础 设施 、 交 通 运 行 状态 还 是 交通 服务 对 象 和 交通 运载 工具 ， 每 时 
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每 刻 都 在 产生 着 大 量 的 数据 ， 以 大 数据 的 思路 和 角度 来 看 ， 这 些 都 是 正 待 挖掘 的 宝藏 ， 
能 为 交通 决策 和 服务 带 来 新 的 解 题 思路 。 面 对 大 数据 的 浪潮 ， 交 通 运 输 行业 不 应 是 一 个 
“路 人 "， 而 是 要 敞开 胸怀 ， 积 极地 拥抱 和 融合 ， 借 着 大 数据 的 力量 高 度 进行 内 视 和 审 
度 ， 再 回首 相信 会 容 然 开朗 ， 柳 暗 花 明 。 

用 大 数据 管理 交通 是 交通 管理 模式 的 变革 ， 与 此 同时 也 变革 了 公共 交通 市 场 管 理 的 
整个 内 涵 ， 而 阻碍 传统 交通 的 瓶颈 也 可 通过 大 数据 解决 ， 如 表 14-2 所 示 。 


表 14-2 大 数据 为 交通 难题 开 出 的 “药方 ” 


具体 药方 交通 症状 对 症 下 药 
行政 区 域 的 划分 在 促进 各 个 行政 区 域 自 | 利 用 交通 大 数据 的 虚拟 性 ， 有 利于 
大 数据 可 以 跨 | 治 的 同时 , 也 导致 各 个 地 方 政府 追求 各 自 | 其 信息 跨越 区 域 管理 ， 只 要 多 方 共 
越 行政 区 域 的 | 辖区 利益 的 最 大 化 ,而 对 地 方 政府 之 间 边 | 同 遵照 相关 的 信息 共享 原则 ， 就 能 
限制 界 区 的 公共 交通 基础 设施 .过 境 交 通 线路 | 在 已 有 的 行政 区 域 下 解决 跨 域 管理 
等 缺少 建设 问题 
大 数据 有 助 于 建立 综合 性 立体 的 交 
通信 息 体系 ， E 利 用 的 
大 部 分 城市 的 各 类 交通 运输 管理 主体 分 ei ihe ey 
大 数据 具有 信 | 散在 不 同 主管 部 门 ,呈现 出 条 块 分 割 的 现 | 、… ey 
、 。 通信 息 集成 利用 模式 ， 发 挥 整 体 性 
息 集成 优势 和 | 象 。 这 种 分 散 造成 公共 交通 管理 的 碎 | 、. eh i 
组 合 效率 。 | 片 化 , 如 交通 信息 分 散 、 信 息 内 容 单 一 等 | 交通 功能 ， 通 过 在 大 数据 中 进行 集 
条 成 检索 、 利 用 和 分 析 来 提取 相关 信 
息 ， 满 足 各 种 交通 需求 ， 以 解决 实 
时 交通 障碍 
大 数据 能 较 好 | 传统 的 交通 部 门 权 责 界 定 未 厘清 ,专业 分 eta cap 
配置 公共 交通 | 工 的 细 化 也 促使 公共 交通 管理 部 门 职能 | ，、， 人、 od 
信息 资源 ”| 重生 ,因而 在 运营 上 浪费 大 量 人 力 、 物力 | 门 之 问 合理 配置 交通 职能 ， 针 对 有 
关 道 路 问题 进行 合理 信息 资源 配置 
思 旨 i ,一 般 是 
用 伟 物 的 人 和 大 数据 解决 方案 可 以 将 技术 决定 论 
、 | 大 基础 设施 投入 , 即 加 宽 道路 、 增 加 道路 、 上 
大 数据 能 促进 ae 、 | 与 制度 理论 相 结合 ， 将 信息 技术 应 
“| 里 程 来 提高 交通 通行 能 力 , 但 这 种 做 法 又 i ， 本 
公共 交通 均衡 | 人 受到 上 地 资源 的 限制 而 且 这 种 解决 斋 | 用 于 公共 交通 ， 从 制度 层面 提高 信 
性 发 展 . ” 息 资本 利用 率 ， 减 少 对 诸如 土地 等 


式 不 利于 交通 发 展 城 市 空间 发 展 以 及 土 
地 利用 发 展 这 三 者 之 间 的 整合 


外 部 资源 的 依赖 


目前 ， 世 界 各 地 政府 也 都 纷纷 将 交通 运输 数据 由 纸 质 型 转向 数字 方式 储存 ， 建 立 智 
能 交通 系统 ， 人 们 可 查看 交通 流量 计数 ， 也 可 依据 车 辆 行程 和 路 况 拥挤 程度 进行 电子 收 
费 ， 从 而 对 交通 堵塞 和 交通 污染 排放 进行 隐形 控制 。 


14.1.3 ”大 数据 解决 交通 难题 4 大 优势 


及 时 、 高 效 、 准 确 的 交通 数据 获取 是 分 析 交 通 管理 机 制 ， 构 建 合理 城市 交通 管理 体 
系 的 前 提 ， 而 这 一 难题 可 以 通过 大 数据 管理 得 到 解决 。 总 的 来 说 ， 用 大 数据 解决 交通 难 


题 具 有 4 大 优势 ， 如 图 14-1 所 示 。 


提高 交通 运转 效率 :在 对 公共 交通 的 促进 交通 的 智能 化 管理 : 大 数据 的 实时 性 ， 
大 数据 的 聚合 而 减 小 。 例 如 , 传感器 可 利用 时 ， 即 刻 可 被 智能 化 利用 ， 面 向 用 户 
告知 驾驶 员 最 佳 解决 方案 ,例如 帮助 驾 本 


驶 者 最 短 时 间 内 找到 免费 停车 位 ,这 大 
大 减少 了 行车 的 经 济 成 本 。 


节约 资金 ， 在 智能 交通 管理 下 

尽管 引入 处 理 大 数据 的 超级 计算 
机 需要 耗费 一 定 资金 ， 每 年 对 其 的 
维护 也 需 耗费 一 定 财力 ， 但 是 从 长 远 
来 看 ， 其 经 济 效益 更 大 。 用 大 数据 管理 系统 解 
决 交通 拥堵 ， 不 仅 可 以 降低 管理 成 本 ， 提 高 功 
效 ， 而 且 还 有 益 于 城市 交通 管理 的 规范 化 。 


瀚 数字 转换 成 可 理解 的 图 形 化 界面 。 


适 于 海量 数据 处 理 : 大 数据 
© 的 智能 交通 管理 系统 的 设计 
是 基于 云 计算 、 云 管理 和 云 操作 系统 
的 ， 其 不 仅 能 满足 海量 数据 处 理 和 实时 分 析 的 
要 求 ， 还 能 24 小 时 覆盖 所 有 网 络 ,实现 交通 堵 
塞 检测 和 报警 跨 区 域 信息 共享 。 


图 14-1 大 数据 解决 交通 难题 的 4 大 优势 
专家 提醒 


例如 ， 美 国 仅 次 于 房屋 的 第 二 大 消费 成 本 就 是 交通 运输 ， 美 国 司机 一 年 只 有 4% 的 时 间 


在 开车 ， 但 却 要 每 年 为 车 辆 支付 8000 美元 。 如 在 新 泽 西 州 引入 大 数据 处 理 交通 堵塞 问题 之 


前 ,其 主要 依赖 交通 摄像 机 和 耗资 2 万 美元 的 路 边 传 感 器 ,但 这 些 信 息 仅 履 盖 整个 州 道路 的 


5%。 引 入 INRIX 大 数据 管理 系统 之 后 ， 尽 管 新 泽 西 州 每 年 耗费 在 INRIX 系统 上 的 资金 要 达 


45 万 美元 ， 但 其 覆盖 面 更 广 ， 信 息 准 确 性 更 高 ， 而 且 给 人 们 减少 的 时 间 成 本 都 是 无 法 计量 的 。 
14.1.4 如何 应用 大 数据 解决 交通 问题 


转型 中 的 交通 也 面临 着 调整 发 展 结构 、 提 升 发 展 质量 的 难题 ， 此 时 与 大 数据 时 代 相 


遇 实 为 幸 事 ， 因 


为 大 数据 为 交通 难题 带 来 了 解决 方案 。 在 交通 问题 解决 过 程 中 ， 基 于 大 
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数据 的 智能 交通 数据 处 理 体系 流程 如 图 14-2 所 示 。 


图 14-2 ”基于 大 数据 的 智能 交通 数据 处 理 体系 流程 
专家 提醒 


公共 交通 的 智能 化 管理 表现 在 : 一 旦 某 个 路 段 发 生 问 题 , 能 立刻 从 大 数据 中 调 出 有 用 信 


266 ” 息 ， 确 保 交 通 的 连贯 性 和 持续 性 ; 另 一 方面 ， 大 数据 具有 较 高 预测 能 力 ， 可 降低 误 报 和 漏 报 
的 概率 ， 可 随时 针对 公共 交通 的 动态 情况 给 予 实时 监控 。 
应 用 大 数据 解决 交通 问题 的 具体 流程 说 明 如 表 14-3 所 示 。 


解决 流程 


收集 和 输入 数据 


交换 和 处 理 数据 


表 14-3 ”应 用 大 数据 解决 交通 问题 的 具体 流程 说 明 


具体 内 容 
这 些 数 据 包 括 静 态 数 据 和 动态 数据 ， 前 者 指 道 路 环境 、 车 辆 信息 等 长 时 
间 不 会 改变 的 数据 ， 这 类 数据 通过 线圈 (类 似 于 磁性 检测 器 ) 和 摄像 机 
(交通 视频 ) 进行 搜集 ; 后 者 指 在 交通 运行 中 而 产生 的 实时 数据 (如 车 
辆 行驶 速度 )， 这 类 数据 通过 GPS 全 球 定位 技术 、 手 机 网 络 信号 来 搜集 
数据 中 心 对 实时 交通 流 数据 进行 提取 ， 同 时 规定 统一 的 数据 格式 ， 从 而 
促进 数据 交换 中 心 之 间 对 数据 进行 交换 和 处 理 


储存 和 集成 数据 


通过 基于 云 计算 的 云 存储 来 对 数据 进行 储 在 ， 将 大 数据 集成 起 来 


管理 和 运用 数据 


控制 中 心 将 这 些 大 数据 在 电脑 地 图 上 以 不 同色 彩 来 呈现 ， 分 别 以 不 同 颜 
色 注 明 各 个 路 段 的 拥堵 情况 ， 如 图 14-3 所 示 。 在 这 一 体系 中 ， 为 了 真正 
利用 好 大 数据 ， 必 须要 处 理 好 如 下 问题 : 高 速 连接 、 大 数据 管理 、 开 放 
数据 等 
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图 14-3 ”电脑 地 图 上 的 各 个 路 段 的 拥堵 情况 显示 
14.1.5 大 数据 在 智能 交通 行业 的 挑战 


随 着 信息 通信 技术 的 发 展 ， 交 通 运输 从 数据 贫乏 的 困境 转向 数据 丰富 的 环境 ， 而 面 
对 众多 的 交通 数据 ， 如 何 从 中 根据 用 户 需求 提取 有 效 数 据 成 为 关键 所 在 。 大 数据 管理 是 
一 个 巨大 的 挑战 ， 一 方面 要 及 时 提取 交通 数据 以 满足 用 户 需求 ， 另 一 方面 须 在 数据 的 潜 
在 价值 与 个 人 隐私 之 间 进行 平衡 。 

大 数据 在 智能 交通 行业 面临 的 挑战 与 建议 如 表 14-4 所 示 。 

笔者 认为 ， 要 真正 利用 大 数据 构建 一 体 化 的 公共 交通 管理 体制 ， 还 需要 对 交通 数据 
采集 、 处 理 等 方面 进行 梳理 ， 需 要 对 智能 交通 系统 的 构建 以 及 用 户 界 面 的 完善 做 进一步 
研究 。 总 之 ， 数 据 是 智能 交通 的 核心 ， 对 交通 数据 深度 处 理 与 分 析 是 其 中 的 关键 。 


a | 济 罕 BE .区 


表 14-4 大 数据 在 智能 交通 行业 面临 的 挑战 与 建议 


面临 挑战 具体 表现 建议 方案 

交通 主管 部 门 应 建立 诸如 Transportation 
目前 ， 大 多 城市 是 在 私人 数据 | InformationGroup 的 开放 交通 运输 数据 的 门户 
库 中 管理 它们 的 交通 和 运输 数 | 网 站 , 尽 可 能 以 XML、 Text/CSV、KML/KMZ、 
如 何 开放 公 | 据 ， 且 仅 由 市 政工 作 人 员 监 视 |Feeds、XLS 等 多 种 格式 开放 交通 运输 数据 ， 
共 交 通 数据 | 系统 性 能 以 及 实施 改善 措施 。 | 提高 机 器 可 读 性 ; 同时 ， 在 门户 网 站 上 配备 数 
这 种 对 数据 的 封闭 式 管理 不 会 | 据 挖 掘 和 抽取 工具 , 促进 用 户 根据 个 人 喜欢 来 
促进 信息 的 增值 获取 数据 : 制定 促进 交通 数据 共享 的 奖励 措 
施 ， 推 动 交 通信 息 的 开放 和 整合 


. 史 噬 才 


掉 吉 交 疗 新 三 


,| ES 


面临 挑战 具体 表现 


续 表 
建议 方案 


大 数据 扩大 了 信息 范围 , 加 快 了 信 
息 传递 和 共享 速度 , 若 不 加 以 严格 
控制 , 其 所 含 的 商业 信息 或 私密 信 


个 人 隐 息 就 可 能 泄露 ， 例 如 个 人 所 在 位 
私 问题 置 、 个 人 出 行 习惯 以 及 用 户 最 喜欢 


的 主 路 线 等 。 一 旦 个 人 察觉 到 这 些 
私密 信息 有 泄露 , 就 会 抵制 大 数据 
管理 系统 的 广泛 应 用 


如 今 , 各 地 交通 机 构 都 具有 交通 数 
据 并 能 被 大 数据 管理 系统 应 用 , 但 
很 多 车 辆 计数 〈 计 算 交 通车 辆 数 
交通 数据 的 | 目 ) 的 数据 都 以 静态 格式 (如 PDF) 
存 取 方 式 存储 ,使 得 系统 所 具备 的 计数 特性 无 
法 被 除 人 之 外 的 事物 进行 检索 ,这 种 
传统 “人 对 物 ”的 互联 网 连接 方式 不 
符合 物 联网 的 “ 物 对 物 ” 特 性 


政府 应 制定 一 部 完整 的 数据 隐私 法 ,对 个 人 
数据 的 定义 、 数 据 可 发 布 范围 、 数 据 发 布 的 
基本 原则 、 数 据 可 利用 的 范畴 等 方面 进行 规 
范 。 交 通 主管 部 门 在 遵守 这 部 法 律 的 基础 
上 , 进一步 细 化 可 发 布 的 交通 信息 , 并 开展 
数据 隐私 、 安全 的 教育 项 目 , 加 大 用 户 对 隐 
私 规则 的 了 解 。 主 要 原则 是 : 数据 的 商业 性 
开发 、 公 益 性 利用 能 够 与 个 人 隐私 权 之 间 相 
平衡 ,政府 在 赋予 企业 更 大 程度 利用 数据 的 
权利 和 获得 潜在 商业 利润 的 同时 ,要 减少 公 
民 对 个 人 隐私 和 数据 安全 的 担忧 


交通 部 门 必须 聚合 各 种 交通 数据 , 一 方面 要 
重视 数字 化 交通 数据 , 另 一 方面 要 对 重要 核 
心 交通 数据 进行 纸 质 保存 ,这样 可 以 通过 资 
源 共享 的 方式 来 丰富 整个 智能 交通 的 数据 
长 尾 。 此外, 为 了 真正 实现 公共 交通 的 智能 
化 ， 可 以 加 大 交通 数据 中 心 的 自动 化 程度 ， 
让 用 户 能 自动 收发 交通 数据 


14.2 ”交通 行业 大 数据 应 用 案 倒 


无 论 在 哪里 ,城市 管理 者 都 希望 打造 畅通 、 清 洁 、 安 全 的 交通 环境 ,但 是 凭借 印象 、 
推测 做 出 的 决策 往往 经 不 起 实践 的 检验 ， 一 味 拓宽 道路 和 盲目 规划 也 会 激化 人 地 矛 
盾 。 而 在 大 数据 时 代 ， 数 据 的 分 析 为 交通 科学 决策 和 管理 提供 了 一 条 便捷 又 较为 可 行 的 


道路 。 


14.2.1 【案例 ] 大 数据 解决 波士顿 堵车 难题 


据悉 ， 波 士 顿 可 能 是 美国 交通 最 拥堵 的 10 个 城市 之 一 ， 为 了 解决 这 个 问题 ，IBM 
公司 的 工程 师 为 波士顿 政府 建立 了 一 套 应 用 程序 ， 其 能 将 从 手机 加 速 器 到 社交 网 站 上 的 
数据 整合 在 一 起 ， 绘 制 出 波士顿 交通 情况 全 面 而 完整 的 实时 图 像 ， 供 有 关 人 员 人 参考。 该 
方案 资金 来 自 IBM 智慧 城市 项 目 , IBM 的 6 位 数据 分 析 工 程 师 准备 通过 整合 、 分 析 现 有 


交通 数据 ， 以 及 来 自 社交 媒体 ( Twitter ) 的 新 数据 源 ， 来 医治 波士顿 的 交通 恶 瘤 。 

在 波士顿 ， 每 秒 钟 都 有 数 以 百 万 计 的 数据 点 信息 ， 包 括 GPS 和 手机 ， 这 些 数据 经 
过 分 析 处 理 后 可 以 提供 交通 智能 信息 。IBM 的 专家 们 以 及 来 自 波士顿 大 学 的 技术 人 员 准 
备 制定 一 个 优化 的 交通 管理 计划 ， 以 便 更 快 地 发 现 拥堵 问题 ， 通 过 制定 更 好 的 自行 车 、 
泊 车 和 交通 管理 政策 ， 大 幅 降低 碳 排放 。 

IBM 安装 在 iPhone 上 的 移动 应 用 分 析 软 件 ， 类 似 移动 BI 仪表 盘 ， 可 供 市 政 规划 人 
员 使 用 ， 但 波士顿 市 政府 透露 将 来 也 会 发 布 面向 公众 的 iPhone 交通 应 用 ， 将 部 分 数据 
公开 。 这 些 数据 包括 市 政 网 联网 能 够 实时 采集 的 交通 信号 灯 、 二 和 氧化 碳 传感器 甚至 汽车 
的 数据 ， 这 些 数据 能 够 帮助 乘客 重新 调整 路 线 ， 节 省 时 间 和 汽油 ， 如 图 14-4 所 示 。 


WE 


图 14-4 在 道路 上 利用 交通 信号 灯 、 二 和 氧化 碳 传感器 等 采集 交通 数据 


据 该 预测 系统 的 开发 小 组 一 一 IBM 智能 出 行者 ( Smarter Traveler ) 的 项 目 经 理 John 
Day 介绍 ， 该 系统 包含 三 个 部 分 。 

第 一 部 分 是 拥有 具有 GPS 功能 智能 手机 的 驾驶 员 用 户 数据 库 ， 该 手机 可 以 自动 将 
他 们 的 位 置 发 送 到 道路 网 络 上 ， 可 以 让 系统 掌握 驾驶 员 常 常 行驶 的 路 线 。 系 统 通过 查看 
驾驶 员 的 目的 地 来 判断 其 常常 行走 的 路 线 ， 还 会 通过 道路 传感器 来 收集 交通 数据 。 这 些 
传感器 包括 分 布 在 各 大 道路 上 的 感应 线圈 式 探测 器 一 一 一 种 磁场 感应 装置 ,每 30 秒 感应 
一 次 并 汇报 车 辆 通过 的 信息 。 

第 二 部 分 是 IBM 的 交通 预测 工具 ( TPT )， 它 是 一 种 通过 历史 数据 来 实时 预测 未 来 
可 能 发 生 事件 的 学 习 和 分 析 引 擎 。 交 通 预 测 工具 通过 对 交通 数据 的 分 析 来 确定 较 小 道路 
事故 与 较 大 交通 事故 之 间 的 关联 。 该 系统 在 事故 发 生 的 时 候 会 识别 出 异常 情况 ， 然 后 迅 
速 判断 出 接 下 来 可 能 发 生 的 交通 模式 。 
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第 三 部 分 需要 将 出 行 建 议 发 给 用 户 。 这 时 TPT 已 经 完成 其 工作 , 在 用 户 可 能 会 行走 
的 路 线 与 该 路 线 上 可 能 会 存在 的 问题 之 间 找 到 了 某 种 关联 。 与 此 同时 ， 系 统 还 会 通过 对 
交通 信号 配 时 、 瑟 道 信号 控制 以 及 路 线 规划 的 改进 来 帮助 用 户 和 交通 系统 部 门 在 拥 墙 发 
生 之 前 可 以 更 好 地 预测 并 减少 追尾 事故 的 发 生 。 

另外 ， 该 程序 有 望 通过 跟踪 针对 同一 地 点 的 不 同 数据 流 来 让 有 关 人 员 实 时 调整 城市 
的 交通 流动 情况 ， 或 许 甚至 能 调整 交通 信号 灯 的 模式 以 避免 一 些 有 可 能 会 发 生 的 事故 ， 
例如 ， 隧 道内 的 车 祸 或 者 球场 附近 的 交通 拥堵 等 。 

【 案例 解析 ])， 针 对 城市 交通 堵塞 ， 人 们 普遍 会 使 用 谷歌 、 微 软 等 技术 公司 研制 的 
“实时 路 况 ” 软 件 了 解 交通 状况 ， 然 而 很 多 时 候 ， 等 到 人 们 发 现 前 方 有 堵车 时 ， 已 经 为 
时 过 晚 ， 他 们 已 经 深 陷 车 流 中 ， 来 不 及 改道 了 。 在 本 案例 中 ， 如 果 移 动 应 用 分 析 软 件 可 
以 对 每 个 城市 居民 开放 ， 这 样 大 家 都 可 以 使 用 这 类 整体 性 的 数据 分 析 ， 更 好 地 制定 自己 
的 出 行 计 划 。 
回 到 交通 的 问题 ， 除 了 不 堵车 ， 交 通 管理 对 于 企业 运营 和 城市 构建 都 有 重要 意义 。 
例如 ， 企 业 运输 原料 ， 物 资 在 路 上 耽误 的 时 间 越 长 效率 越 低 ， 制 造 的 污染 和 能 耗 也 越 多 
越 高 。 通 过 对 不 同行 业 的 交通 数据 跟踪 ， 政 府 可 以 更 好 地 计划 和 管理 企业 ， 有 意识 地 设 
计 产 业 布局 ， 从 而 构筑 城市 可 持续 核心 竞争 力 。 

专家 提醒 

IBM 公司 和 加 州 交通 局 开发 的 一 个 “堵车 预警 系统 ”会 收集 每 辆 汽车 的 GPS 信息 ， 通 
过 数学 模型 ， 在 堵车 尚未 发 生 时 便 可 以 预测 出 哪儿 会 发 生 拥 堵 ， 市 民 们 甚至 可 以 提前 多 达 
40 分 钟 便 得 知 交通 路 况 。 另 外 ，IBM 公司 和 加 利 福 尼 亚 州 交通 局 以 及 加 州 大 学 伯克利 分 校 
的 创新 交通 中 心 合力 设计 了 一 款 名 叫 “ 聪 明 出 行 ”的 系统 ， 它 可 以 让 司机 们 在 交通 堵塞 还 没 
发 生 之 前 就 预测 到 哪儿 会 堵车 ， 它 会 为 用 户 规划 数 条 出 行路 线 ， 并 用 不 同 颜 色 呈 现 它们 在 可 
预见 的 时 间 内 的 交通 状况 。 


14.2.2 【案例 】 谷歌 街景 带 你 在 家 环 游 世界 
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谷歌 街景 ( Street View ) 让 科幻 小 说 中 的 瞬间 移动 ( Teleportation ) 成 为 了 现实 ， 
现在 只 需 轻 点 鼠标 ， 人 们 就 能 实现 “ 远 途 旅行 "。 随 着 全 球 化 和 人 员 流 动 的 加 剧 ， 人 们 
希望 尽快 对 一 个 陌生 地 区 熟悉 起 来 的 意愿 ， 为 谷歌 街景 这 项 新 技术 提供 了 广阔 的 前 景 。 
Google 的 最 终 目 标 是 提供 全 世界 的 街头 景观 。 

对 于 不 少 人 来 说 ， 能 够 在 世界 各 地 自由 穿梭 ， 而 不 需要 真 的 进行 “实体 ”旅行 ， 这 
实在 算得 上 是 一 个 伟大 的 成 就 。 无 需 经 过 严酷 的 穿越 ， 就 能 够 探索 数 千 英 里 之 外 的 物理 
空间 ， 听 上 去 就 和 科幻 小 说 的 情节 一 样 梦 幻 。 而 现在 ， 谷 歌 街 景 已 经 让 人 们 高 瞬间 移动 
的 目标 更 近 一 步 一 一 只 是 ， 当 然 ， 它 不 能 真 的 对 实体 物品 进行 转移 。 


D> 


谷歌 街景 是 应 用 于 Google Maps 和 Google Earth 的 一 项 技术 ， 提 供 世 界 上 许多 街 
道 不 同位 置 的 全 景 展现 。 谷歌 街景 诞生 于 2007 年 5 月 25 日 , 最 初 只 在 美国 的 几 个 城市 
使 用 ， 此 后 逐步 扩大 到 更 多 的 城市 和 乡村 以 及 更 多 的 国家 和 地 区 。 
谷歌 街景 显示 的 图 像 是 由 经 过 特别 改装 的 车 队 拍摄 的 ， 对 于 不 能 行车 的 地 区 ， 如 行 
人 专用 区 、 狭 塞 的 街道 、 小 埠 和 滑雪 胜地 等 ， 则 用 三 轮 车 或 滑雪 车 来 拍摄 。 在 这 些 车 
辆 上 各 有 9 个 360 度 全 景 定 向 相机 ， 高 度 约 2.5 米 ， 另 外 配 有 全 球 定位 仪 和 三 台 激 光 测 
距 仪 用 来 扫描 车 头 前 180 度 范围 内 50 米内 的 物体 ， 还 有 天 线 扫描 、3G/GSM 和 WiFi 

“谷歌 街景 ”服务 只 是 谷歌 的 地 图 服务 的 补充 ， 谷歌 公司 希望 用 户 将 它 和 之 前 发 布 
的 “谷歌 地 球 ” 结 合 起 来 ， 从 而 充分 了 解 地 球 上 的 每 一 个 地 区 ， 如 图 14-5 所 示 。 在 这 
些 精 确定 位 的 地 球 照 片上 ， 不 仅仅 可 以 看 到 哪 一 户 家 庭 的 后 院 有 游泳 池 或 者 网 球场 ， 以 
及 家 门口 的 汽车 型 号 和 颜色 ， 甚 至 花园 里 的 设施 和 其 中 晒 日 光 浴 的 人 也 能 一 览 无 余 。 


网 :mr 


图 14-5 “谷歌 街景 地 图 
谷歌 地 图 日 前 推出 了 一 项 全 新 的 街景 功能 ， 用 户 通 过 一 个 地 图 扩展 包 将 可 以 使 用 全 


新 “水 下 街景 ”功能 ， 畅 游 谷歌 所 选取 的 6 个 海底 特定 区 域 的 360 度 全 景 地 图 。 

“水 下 街景 ”不 仅仅 能 够 为 脆弱 的 且 不 断 在 发 生变 化 的 海底 世界 保留 珍贵 的 图 片 ， 
而 且 还 可 以 为 那些 没有 机 会 亲身 经 历 海底 世界 的 用 户 提供 一 个 身 临 其 境 的 体验 机 会 。 据 
悉 ， 用 户 使 用 “水 下 街景 ”功能 看 到 的 景象 主要 是 澳大利亚 、 夏 威 夷 以 及 菲律宾 海域 的 
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珊瑚 礁 以 及 生活 在 其 中 各 种 各 样 的 海洋 生物 。 

“Google 街景 ” 自 提 供 服 务 以 来 ， 就 一 直 备 受 关注 与 议论 。 反 对 者 指控 Google 街 
景 地 图 曝光 了 太 多 的 个 人 隐私 ,有 可 能 侵犯 个 人 隐私 ,Google 也 采取 了 一 系列 应 对 措施 ， 
例如 对 路 人 脸 部 做 模糊 处 理 ， 删 除 一 些 敏感 图 片 等 。 

亏 家 提醒 

Google 的 街景 服务 采集 车 在 澳大利亚 行驶 时 还 顺带 收集 了 道路 上 的 WiFi 接 入 点 ， 通 过 
记录 网 络 接 入 点 的 信息 ， 可 以 在 没有 GPS 的 情况 下 通过 WiFi 接 入 点 估算 用 户 所 在 的 位 置 ， 
提供 定位 服务 。 但 麻烦 的 是 ， 部 分 数据 被 用 于 其 他 用 途 ， 街 景 采集 车 不 仅 收集 WiFi 接 入 点 
数据 ， 并 且 还 记录 了 WiFi 网 络 传送 的 数据 包 ， 如 果 街 景 采集 车 通过 一 个 未 经 加 密 的 WiFi 
网 络 ， 这 些 数据 就 会 被 记录 在 案 ， 这 些 数 据 包 中 包含 电子 邮件 、 用 户 名 与 密码 等 信息 。 

【 案例 解析 】， 在 本 案例 中 可 以 看 到 ， 谷 歌 在 收集 数据 时 强调 扩展 性 ， 毫 无 疑问 其 
是 做 得 最 好 的 公司 之 一 。 谷 歌 街景 采集 的 数据 之 所 以 具有 可 扩展 性 ， 是 因为 谷歌 不 仅 将 
其 用 于 基本 用 途 ， 而 且 进行 了 大 量 的 二 次 使 用 。GPS 数据 不 仅 优 化 了 其 地 图 服务 ， 而 且 
对 谷歌 自动 驾驶 汽车 的 运作 功 不 可 没 。 

在 谷歌 街景 中 ， 虽 然 你 也 许 无 法 做 到 幻影 移 形 ， 但 你 的 心 可 以 漫游 到 你 想 去 的 任何 
地 方 ， 此 刻 的 世界 就 好 像 真 的 成 了 一 个 地 球 村 。 这 种 连接 人 与 人 的 方式 ， 是 其 他 任何 一 
种 技术 无 法 企及 的 。 


14.2.3 【案例 】 腾讯 SOSO 让 地 图 更 “真实 ” 


腾讯 SOSO 地 图 于 2011 年 12 月 26 日 推出 了 SOSO 地 图 街景 服务 ， 这 是 SOSO 
地 图 服务 增加 的 一 项 新 功能 ， 其 可 显示 所 选 城市 街道 的 360 度 全 景 图 像 。 同 时 ， 这 也 是 
中 国 国内 第 一 家 提供 高 清 街 景 地 图 的 公司 ， 受 到 了 媒体 、 行 业 及 用 户 的 广泛 关注 。 

在 制作 SOSO 街景 地 图 时 ,腾讯 并 没有 自己 去 采集 数据 ， 而 是 采用 订单 制 ， 由 第 三 
方 采集 公司 来 完成 。 据 悉 ， 街 景 地 图 一 年 采集 的 数据 量 高 达 1PB， 光 是 整理 硬盘 ， 搜 搜 
就 专门 配备 了 两 个 人 。 腾 讯 与 这 些 公司 之 间 签 署 独 家 协议 ,街景 数据 向 搜 搜 独家 供应 。 
这 些 外 部 采集 团队 的 规模 约 为 “两 三 百人 "， 从 上 午 10 点 到 下 午 4 点 ， 一 个 采集 车 可 以 
采集 回来 约 20GB 数据 ， 这 些 车 队 一 天 总 共 可 以 采集 回 “ 几 个 TB 数据 "， 一 年 加 起 来 有 
= 人 PBs 

用 户 ( 个 人 或 商户 ) 还 可 以 “ 邀 拍 "， 搜 搜 街景 地 图 团队 依据 用 户 的 呼声 来 拍摄 更 
精细 的 街景 。 另 外 ， 从 实景 采光 效果 来 看 ， 搜 搜 街景 的 360 度 照 片 确 实 非 常 透彻 明亮 ， 
显然 是 经 过 刻意 筛选 的 。SOSO 街景 的 高 清 景象 可 以 帮助 用 户 通过 实景 的 方式 更 真实 、 
快速 地 认识 一 个 地 点 ， 其 主要 用 途 如 表 14-5 所 示 。 


表 14-5 SOSO 街景 的 主要 用 途 


主要 用 途 细节 说 明 

在 线 旅游 SOSO 街景 可 以 提供 43 个 城市 和 地 区 的 街景 只 要 坐 在 电脑 前 就 可 以 真实 地 
看 到 街道 上 的 高 清 景象 ， 如 图 14-6 所 示 

认 清 道路 ， 快 | 去 陌生 的 地 方 前 ， 用 户 可 以 使 用 SOSO 街景 先 提前 看 一 看 路 况 ， 使 自己 少 走 

速 到 达 目 的 地 | 弯路 

了 解 家 人 、 朋 | 使 用 SOSO 街景 ， 可 以 让 彼此 看 到 居住 的 城市 、 街 道 ， 甚 至 可 以 看 到 你 家 的 

友 的 生活 环境 | 窗户 。 虽 然 相 距 千 里 ， 让 彼此 的 心 更 亲近 

买房 租房 ， 先 买房 租房 的 用 户 一 定 都 吃 过 东 奔 西 跑 的 苦头 。 利 用 SOSO 街景 ， 可 以 先 看 看 


你 的 目标 小 区 长 什么 样子 ,周边 环境 如 何 …… 不 但 可 以 节省 时 间 , 结合 SOSO 


用 SOSO 街景 | 地 图 丰富 的 查找 功能 ， 还 可 以 坐 在 电脑 前 就 轻松 对 比 各 个 楼 盘 的 周边 环境 


图 14-6 SOSO 街景 地 图 


此 外 ，SOSO 街景 在 用 户 体验 上 也 进行 了 大 量 创新 ， 如 白天 与 夜景 一 键 切换 、 图 像 
清晰 度 提 升 、 移 动 流畅 度 提 升 、 画 面 惯性 系统 等 。 考 虑 到 目前 国内 用 户 的 网 络 带 宽 问题 ， 


SOSO 街景 地 图 采用 的 图 片 经 过 压缩 , 但 SOSO 地 图 已 经 做 好 了 提供 更 好 视觉 效果 的 准 
备 ， 随 着 网 络 环境 的 改善 ， 未 来 将 推出 更 高 画面 质量 的 街景 产品 进行 迭代 。 

当然 ，SOSO 街景 地 图 也 面临 一 定 的 挑战 ， 笔 者 认为 至 少 包 括 以 下 三 个 方面 : 

( 1 ) 街景 地 图 管理 政策 。 目 前 这 个 问题 基本 得 到 解决 ， 腾 讯 凭 借 自己 强大 的 关系 
网 ， 成 为 街景 地 图 监管 政策 的 推动 者 之 一 ， 可 谓 因祸得福 。 
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( 2 ) 天 气 和 海量 数据 。 为 了 获取 更 好 的 街景 照片 ， 数据 收集 人 员 只 能 “ 靠 天 吃饭 ”， 
这 一 点 Google 街景 团队 也 概 莫 能 外 。 

( 3 ) 数据 量 的 存储 。 每 年 处 理 1PB 数据 对 于 腾讯 来 说 是 一 个 巨大 的 挑战 ， 据 悉 腾 
讯 公司 已 经 为 街景 地 图 投入 了 “ 数 亿 元 ”人 民 币 。 

不 久 前 ， 腾 讯 公司 董事 会 主席 兼 首席 执行 官 马化腾 提出 四 大 战略 方向 ， 包 括 
SoLoMo、 照 片 、Voice 和 手机 安全 ， 其 中 提 到 腾讯 开放 平台 每 天 调用 LBS 数据 的 次 数 
是 7 亿 次 ， 而 且 还 在 不 断 暴涨 。 街 景 地 图 的 布局 ， 如 同 腾讯 5 亿 元 影视 投资 基金 一 样 ， 
都 属于 长 线 投 资 。 

【 案例 解析 ]， 在 本 案例 中 ，SOSO 街景 地 图 的 核心 技术 均 采 用 自主 技术 ， 其 中 包 
括 3D 引擎 、 云 平台 存储 计算 及 配套 的 图 形 图 像 技术 。 街 景 地 图 服务 能 够 为 QQ 用 户 ， 
尤其 是 年 轻 用 户 提供 差异 化 的 体验 ， 增 加 SOSO 地 图 的 产品 黏 性 ， 由 此 提升 SOSO 品 
牌 影响 力 。 另 外 ，SOSO 街景 地 图 的 上 线 有 利于 推动 国内 在 线 地 图 产业 的 发 展 ， 触 发 行 
业 的 跟随 效应 ， 激 发 各 家 在 线 地 图 平台 推出 自己 的 新 一 代 地 图 服务 。 

数据 是 街景 地 图 的 核心 竞争 力 ， 既 需要 数据 的 数量 ， 又 要 保证 数据 的 质量 。SOSO 
地 图 首先 保证 了 一 条 ， 即 数据 的 独家 性 ， 这 个 优势 的 建立 归功 于 起 步 早 、 行 动 快 。 地 图 
产品 本 身 意味 着 高 成 本 的 投入 ， 加 入 了 街景 功能 ， 意 味 着 更 大 规模 的 支出 。 笔 者 认为 ， 
街景 在 未 来 还 有 大 量 的 挖掘 空间 ， 包 括 更 多 的 城市 、 更 快 的 更 新 频次 、 形 成 历史 变迁 的 
时 空 记录 、 和 O20 进行 结合 、 用 户 个 性 化 和 社区 化 的 相片 分 享 等 。 


14.2.4 【案例 】 用 大 数据 APP 缓解 交通 压力 


上 海 是 一 个 人 口 和 产业 特别 密集 的 特大 城市 ， 中 心 区 90 多 平方 公里 之 内 平均 每 平 
方 公里 超过 4 万 人 ， 人 均 道 路 面积 只 有 2 平方 米 ， 只 有 国内 同类 城市 的 1/2 到 1/3， 国 
外 同类 城市 的 1/5 到 十 几 分 之 一 。 随 着 经 济 的 发 展 ， 车 辆 增加 很 快 ， 上 海 的 道路 交通 负 
荷 从 总 体 上 说 已 处 于 超 饱和 状态 。 这 种 交通 的 超 饱 和 状态 ， 不 是 采取 一 般 的 管理 措施 所 
能 够 解决 的 。 而 随 着 改革 开放 ， 城 市 的 发 展 ， 这 种 矛盾 还 会 迅速 加 剧 。 因 此 上 海 必须 加 
快 交通 建设 ， 铂 而 不 舍 地 把 解决 城市 交通 问题 作为 城市 建设 的 重点 。 

大 数据 在 上 海 交 通 中 已 经 有 了 广泛 运用 。 上 海 从 2004 年 开始 ， 经 过 近 十 年 的 持续 
建设 和 应 用 ， 基 本 实现 了 对 全 市 中 心 城区 主要 地 面 道路 、 城 市 快速 路 、 高 速 公路 信息 采 
集 和 发 布 的 覆盖 。 目 前 ， 对 交通 信息 的 采集 主要 是 通过 地 磁 线圈 、 出 租车 GPS 信息 、 
视频 图 像 、 信 号 控制 系统 等 方式 ， 采 集 车 速 、 流 量 、 交 通 事 件 等 实时 数据 ， 经 过 网 络 传 
输 汇 聚 到 交通 综合 信息 平台 ， 实 现 跨 部 门 交通 数据 的 汇聚 、 共 享 与 交换 。 

上 海 “ 智 行者 ”APP 主要 实现 用 户 对 上 海 市 路 况 的 整体 了 解 ， 以 简 图 的 形式 呈现 
用 户 , 方便 用 户 及 时 掌握 市 内 主要 区 域 的 道路 状况 ， 可 以 根据 不 同 的 路 况 优化 行车 路 线 ， 


D> 


节约 旅行 成 本 ， 如 图 14-7 所 示 。 当 你 驾车 驶 入 指定 区 域 时 ， 会 提前 弹出 该 区 域 的 交通 


路 况 简 图 ， 并 对 事件 、 施 工 、 sd 使 用 户 可 以 提前 掌握 该 区 域 路 况 ， 
随时 变更 行车 路 线 。 


行车 中 自动 政 册 前方 趴 况 简 图 
自动 夫 闭 ， 有 入 旬 资金/ 


图 14-7 “ 智 行者 ”APP 界面 


针对 不 同 路 网 的 交通 特征 , 通过 获取 包括 数字 、 视 频 、 图 像 等 多 种 类 型 的 交通 数据 ， 
经 数据 的 分 析 处 理 ， 获 得 道路 交通 通行 指数 和 通行 状态 ， 通 过 车 载 终端 、 智 能 手机 、 网 
站 和 电台 、 电 视 等 ， 多 载体 、 多 方式 地 实现 交通 状态 信息 的 发 布 服务 

【 案例 解析 】]， 在 本 案例 中 可 以 看 出 ， 大 数据 的 分 析 和 应 用 在 上 海道 路 交通 中 发 挥 
了 重要 作用 。 笔 者 认为 ， 智 能 交通 技术 可 以 有 效 地 提高 现 有 交通 资源 的 使 用 效率 ， 降 低 
能 耗 ， 同 时 提高 交通 便捷 水 平和 安全 性 ， 不 同城 市 应 据 不 同 的 规划 和 情况 制定 适合 本 地 
的 智能 出 行 方案 。 
因此 ， 在 驾驶 者 无 法 预知 交通 的 拥堵 可 能 性 时 ， 大 数据 亦 可 帮助 用 户 预 先 了 解 。 例 
如 ， 在 驾驶 者 出 发 前 ， 大 数据 管理 系统 会 依据 前 方 路 线 中 导致 交通 拥堵 的 各 种 因素 ， 确 
定 避 开 拥 堵 的 备用 路 线 ， 并 通过 智能 手机 告知 驾驶 者 。 


14.2.5 【案例 】ETC 电子 收费 系统 加 大 通行 力 


目前 ， 全 美 公路 总 里 程 达到 630 多 万 公里 ， 其 中 高 速 公路 总 里 程 已 近 9 万 公里 。 在 
高 速 公路 的 运营 过 程 中 ， 根 据 运 营 报 表 统 计数 据 ， 人 工 半自动 收费 车 道 ( Manual Ton 
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Collection System，MTC ) 的 平均 通行 能 力 为 200 辆 /小 时 ， 电 子 收费 车 道 的 平均 通行 
能 力 为 1500 辆 /小 时 ，1 条 ETC ( Electronic Toll Collection， 即 电子 不 停车 收费 系统 ， 
如 图 14-8 所 示 ) 车 道 的 通行 能 力 是 MTC 车 道 通行 能 力 的 7 倍 。 


图 14-8 ETC 收费 通道 


,| 该 内 EH .所 多 ET 


ETC 是 目前 世界 上 最 先进 的 路 桥 收费 系统 ，ETC 技术 是 以 IC 卡 作 为 数据 载体 的 ， 
通过 无 线 数据 交换 方式 实现 收费 计算 机 与 IC 卡 的 远程 数据 存 取 功 能 。 使 用 该 系统 ， 车 
主 只 要 在 车 上 安装 IC 卡 并 预存 费用 ， 通 过 收费 站 时 便 不 用 人 工 缴费 ， 也 无 需 停车 ， 高 
速 费 将 从 卡 中 自动 扣除 ， 如 图 14-9 所 示 。 通 过 ETC 系统 ， 可 以 获取 车 主 个 人 信息 、 卡 
内 金额 以 及 通行 车 速 、 时 间 、 路 径 等 。 在 数据 获取 方面 ，ETC 要 远 胜 于 摄像 头 监控 、 牌 
照 识别 、 地 感 线圈 等 传统 的 车 辆 信息 采集 手段 ， 采 集 到 的 信息 也 更 加 全 面 、 准 确 。 

美国 最 著名 的 联网 运行 电子 不 停车 收费 系统 是 E-Zpass 系统 , 这 种 收费 系统 每 车 收 
费 耗 时 不 到 两 秒 ， 其 收费 通道 的 通行 能 力 是 人 工 收费 通道 的 5~ 10 倍 ， 在 德国 、 日 本 、 
意大利 都 被 广泛 推广 ， 其 中 意大利 30% 的 收费 站 安装 使 用 了 不 停车 收费 设备 ， 该 收费 方 
式 每 分 钟 平均 可 处 理 30 辆 车 。 

在 美国 ，ETC 方式 不 但 缓解 了 快速 路 、 高 速 公 路 入 口 因 人 工 缴费 导致 的 拥堵 情况 ， 
而 且 还 成 为 美国 回收 公路 投资 和 养护 费用 的 高 效率 手段 。 另 外 ， 在 海关 和 重要 港口 ， 使 
用 ETC 的 车 辆 出 了 高 速 可 以 直接 驶 入 码头 ， 无需 停车 。ETC 在 提高 通行 速度 、 减 少 拥 
堵 、 节 能 减 排 的 同时 ， 也 为 管理 部 门 提供 了 出 入 车 辆 的 基本 数据 。 例 如 ， 用 于 对 数据 准 
确 度 和 质量 要 求 较 高 的 监狱 出 入 管理 ， 通 过 分 析 每 日 车 辆 的 进出 记录 ， 来 核查 是 否 存在 
非 正常 通行 车 辆 。 


微波 双向 通信 


图 14-9 ETC 收费 系统 


【 案例 解析 }， 在 本 案例 中 ，ETC 主要 还 是 用 于 高 速 公路 ， 其 他 扩展 应 用 一 方面 是 
为 了 给 用 户 带 来 更 多 便利 ， 提 供 增值 服务 ; 另 一 方面 ， 也 便于 政府 加 强 监管 ， 掌 握 更 多 
管理 数据 。 

基于 ETC 数据 的 收集 原理 , 笔者 认为 ,用 户 可 以 积极 上 报 共享 周边 路 况 信息 , 为 政 
府 制 定 缓解 城市 交通 拥堵 决策 提供 依据 ， 用 户 还 可 通过 各 种 通信 手段 及 时 地 将 周边 发 生 
的 交通 状况 和 事件 上 报 政府 部 门 或 相关 企业 ， 还 可 提出 更 为 准确 直接 的 交通 缓解 措施 或 
方案 。 

总 之 , 随 着 信息 通信 技术 的 发 展 , 交通 运输 从 数据 贫乏 的 困境 转向 数据 丰富 的 环境 ， 
而 面 对 众多 的 交通 数据 ， 如 何 根据 用 户 需求 从 中 提取 有 效 数 据 成 为 关键 所 在 。 
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社会 : 用 数据 
改变 生活 


学 前 提示 
对 于 生活 在 社会 中 的 普通 人 来 说 ， 大 数据 似乎 离 我 们 甚 远 ， 它 看 不 见 也 摸 不 着 , 但 
又 时 时 影响 着 人 们 的 日 常生 活 , 那么 人 们 在 日 常生 活 中 有 哪些 事情 涉及 大 数据 呢 ? 本 章 


介绍 大 数据 在 教育 、 体 育 、 影 音 媒体 等 生活 中 的 应 用 案例 ， 让 你 了 解 大 数据 到 底 改 变 了 
人 们 哪些 生活 方式 。 


要 点 展示 

< ”教育 领域 大 数据 应 用 案例 
< ”体育 领域 大 数据 应 用 案例 
< ”影音 媒体 大 数据 应 用 案例 
< ”生活 中 的 大 数据 应 用 案例 


15.1 ”教育 领域 大 数据 应 用 案 便 


. 请 噬 才 


大 数据 在 社会 诸多 领域 俊生 了 很 多 变革 ， 本 节 从 教育 领域 探讨 大 数据 的 应 用 ， 并 以 
此 管 凯 大 数据 引发 的 重要 变革 。 本 节 主 要 介绍 大 数据 在 教育 领域 的 应 用 案例 ， 希 望 对 读 
者 有 一 定 的 启发 和 学 习 价值 。 


15.1.1 【案例 】 大 数据 让 在 线 教 育 变 为 现实 


哈佛 大 学 以 及 麻 省 理工 学 院 在 2012 年 联合 发 布 了 一 款 非 营利 性 质 的 在 线 教 育 服 
务 一 -edX。edX 平台 在 2012 年 还 发 布 了 课程 编辑 助手 Course Builder， 其 可 以 帮助 教 
育 机 构 编写 自己 的 在 线 课程 。 

近日 ， 谷 歌 也 开始 与 edX 合作 ， 将 强 强 联合 推出 MOOC ( Massive Open Online 
Course， 巨 多 在 线 课 堂 ， 网 址 为 mooc.org ) 在 线 课堂 。MOOC 将 是 一 个 面向 于 教育 机 
构 、 政 府 、 商 业 机 构 以 及 个 人 的 在 线 教育 平台 ， 认 证 机 构 可 以 在 MOOC 上 推出 自己 的 课 
程 ， 如 图 15-1 所 示 。 


丽 虽 旦 册 激 三 
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加 OGA 


mooc.org goes Ive In the first half of 2014. Are you interested In creating or hosting courses on maocorgy Complete one of the 
three forms below and let us know how mooc.org fits into your plans. Wellbein touch as we get closer to launch. 
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Are you looking to take an online course now? While you wait for mooc.org, explore over 100 courses at edX.org. 
15-1 mooc.org 主页 


到 目前 为 止 ，edX.org 网 站 上 的 课程 已 经 有 120 万 名 学 生 在 使 用 。edX 提供 的 课程 
都 是 “受到 管理 的 "， 提 供 名 牌 大 学 的 质量 保证 。 与 此 相 比 ，mooc.org 网 站 上 的 课程 则 
将 更 具 多 样 性 ， 包 括 来 自 于 公司 和 非 营 利 机 构 的 在 线 课程 等 。 

【 案例 解析 】])， 姓 庸 置 疑 ， 在 国家 大 量 需要 科学 、 技 术 、 工 程 和 数学 专业 的 毕业 生 
之 际 ，MOOC 是 一 项 革命 性 的 创新 。 假 如 你 不 是 那 种 “文凭 狂 "， 只 想 在 比较 好 就 业 的 


专业 领域 提升 自我 能 力 , MOOC 更 可 以 说 是 一 场 教育 革命 。 教 育 领域 正在 发 生 的 这 场 革 
命 ， 其 深厚 的 技术 背景 就 是 由 于 信息 技术 的 进步 ， 人 类 收集 、 存 储 、 分 析 、 使 用 数据 的 
能 力 实现 了 巨大 跨越 ， 这 种 现象 也 被 称 为 “大 数据 "。 

不 难看 出 ， 未 来 的 在 线 教育 平台 之 所 以 强大 ， 在 于 其 能 收集 、 分 析 、 使 用 大 量 的 数 
据 。 数 据 是 对 信息 的 记录 ， 数 据 的 激增 意味 着 人 类 的 记录 范围 、 测 量 范围 和 分 析 范 围 在 
不 断 扩大 ， 也 意味 着 知识 的 边界 在 不 断 延 伸 。 大 数据 将 对 人 类 社会 发 生 的 影响 难以 限量 ， 
以 行为 评价 和 学 习 诱导 为 特点 的 在 线 教育 平台 只 是 这 个 大 潮 在 教育 领域 掀起 的 一 朵 浪花 。 


15.1.2 【案例 】 无 孔 不 入 的 数字 化 学 习 平台 


日 本 网 络 大 学 ( Cyber University ) 是 一 所 位 于 日 本 福冈 县 的 公司 式 经 营 的 私立 大 学 ， 
是 日 本 唯一 的 在 互联 网 提供 全 部 课程 的 大 学 。 网 络 大 学 原来 面向 网 络 用 户 提 供 课程 ， 这 
些 课程 的 内 容 包含 图 片 、 视 频 以 及 声音 ， 而 手机 版 的 课程 为 PowerPoint 图 片 流 媒体 视频 。 

例如 ， 网 络 大 学 在 手机 上 提供 一 节 “ 人 金字 塔 的 秘密 ”的 课程 ， 金 字 塔 的 图 像 出 现在 
手机 屏幕 上 ， 然 后 ， 从 手机 的 扬声器 中 播放 出 教授 的 声音 ， 而 且 图 片 也 会 根据 语音 内 容 
不 断 地 变换 。 

据悉 ， 网 络 大 学 预期 将 在 手机 上 提供 大 约 100 种 课程 ， 其 中 包括 中 国文 化 、 在 线 新 
闻 和 英国 文学 。 与 其 他 课程 不 同 的 是 ， 用 手机 向 公众 讲课 是 免费 的 ， 但 观众 需要 支付 手 
机 费用 。 

在 网 络 大 学 的 规定 中 ， 学 生 们 要 通过 宽带 互联 网 上 课 ， 并 且 向 教授 上 交 自 己 的 作业 
论文 。 在 完成 所 有 课程 和 论文 之 后 ， 学 生 可 以 得 到 正式 的 本 科学 历 。 


专家 提醒 

实际 上 相似 性 质 的 网 络 大 学 也 曾经 在 其 他 国家 出 现 ， 例 如 ， 美 国 Phoenix 大 学 ， 建 立 于 
20 世纪 70 年 代 ， 目 前 已 经 在 北美 地 区 招 慕 到 超过 两 万 名 学 生 ， 它 的 绝 大 部 分 课程 都 通过 网 
络 形式 教授 。 

【 案例 解析 】])， 在 本 案例 中 ， 网 络 大 学 为 那些 无 法 上 实体 大 学 的 人 提供 了 受 教育 机 
会 ， 尤 其 是 上 班 族 、 残 疾 人 和 病人 。 

其 实 ， 笔 者 认为 网 络 大 学 还 可 以 结合 流行 的 大 数据 技术 ， 利 用 流 媒 体 视 频 和 数据 分 
析 帮 助教 师 跟踪 学 生 的 学 习 情 况 ， 根 据 他 们 的 能 力 水 平定 制 教学 内 容 ， 以 及 预测 学 生 的 
执行 情况 。 


15.1.3 【案例 】 用 云 平台 全 面 推进 素质 教育 


亚洲 教育 网 自主 研发 的 “三 网 智慧 泛 教 育 云 平台 ”"， 为 国内 教育 部 门 和 学 校 构 建 了 
支持 “三 网 融合 、 泛 在 学 习 ” 的 公共 智慧 云 ， 形 成 “学 校 一 家 庭 一 社会 ”三 位 一 体 的 绿 
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色 网 络 平台 。 
据悉 ， 该 平台 全 面 支持 素质 教育 和 绿色 评价 体系 ， 以 开放 共享 的 “公共 云 ”消除 地 
区 和 学 校 的 信息 孤岛 ， 以 电脑 、 手 机 、 电 视 、 和 平板 等 多 终端 实现 了 教师 、 学 生 、 家 长 的 
轻松 访问 ， 让 先进 的 教育 理念 和 优质 的 教育 资源 可 以 覆盖 到 农村 和 偏远 地 区 ， 从 而 有 力 
地 促进 了 教育 公平 和 教育 均衡 发 展 。 
三 网 智慧 泛 教 育 云 ” 利 用 云 计 算 、 物 联网 和 虚拟 化 等 新 技术 来 升级 校园 网 、 城 域 
网 ， 其 创建 的 “教育 云 + 互动 电视 + 电子 书包 ”新 模式 开启 了 教育 信息 化 新 纪元 。 
“三 网 智慧 泛 教 育 云 ”包含 互动 社区 云 、 教 育 管理 云 及 教学 资源 去 三 大 子 云 。 
> 互动 社区 云 。 为 学 校 、 家 庭 和 社会 之 间 的 多 向 互动 交流 提供 开放 共享 的 信息 交互 
台 ， 用 户 只 需 一 个 账号 就 能 实现 多 个 平台 间 的 访问 和 多 重 交 流 。 
> 教育 管理 云 。 帮 助 学 校 整体 规划 教育 信息 化 应 用 ， 聚 合 学 校 各 管理 事务 所 需 的 子 
系统 ， 支 持 学 校 按 需 拓展 及 升级 应 用 系统 ， 促 进 学 校 低 成 本 实现 校园 数字 化 管理 。 
> ”教学 资源 云 。 使 分 散 、 异 构 的 学 习 资源 能 够 进行 有 机 整合 ， 从 而 促进 教学 资源 的 
优化 配置 。 
“三 网 智慧 泛 教育 云 ”全 面 推 动 教育 信息 化 ， 目 前 亚洲 教育 网 正 逐 步 地 将 教育 云 平 
台 与 物 联网 进行 高 度 融 合 , 以 方便 用 户 灵 活 接 入 各 种 软 硬 件 系统 , 力求 最 终 全 面 实现 "学 
习 交 流 人 人 通 、 资 源 共享 班 班 通 、 优 质 教 育 校 校 通 ” 的 教育 信息 化 整体 解决 方案 ， 全 面 
推进 素质 教育 。 
【 案例 解析 }， 云 教育 是 指 基于 云 计 算 商业 模式 应 用 的 教育 平台 服务 。 在 云 平 台 上 ， 
所 有 的 教育 机 构 、 培 训 机 构 、 招 生 服务 机 构 、 宣 传 机 构 、 行 业 协 会 、 管 理 机 构 、 行 业 媒 
体 、 法 律 机 构 等 都 集中 云 整合 成 资源 池 ， 各 个 资源 相互 展示 和 互动 ， 按 需 交 流 ， 达 成 意 
向 ， 从 而 降低 教育 成 本 ， 提 高 效率 。 
在 本 案例 中 , 可 以 看 到 云 计算 技术 在 高 校 的 发 展 , 已 经 从 原来 的 理论 步 入 实际 应 用 。 
基于 大 数据 的 云 可 以 用 来 共享 教育 资源 、 分 享 教育 成 果 , 使 教育 者 和 受 教育 者 实现 互动 ， 
如 图 15-2 所 示 。 
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专家 提醒 
如 果 说 大 数据 本 身 是 一 个 问题 集 ， 需要 一 个 “管家 ”来 处 理 。 那 么 ，“ 云 技术 ”就 是 解 
决 大 数据 问题 集 最 重要 、 最 有 效 的 手段 。 


15.1.4 【案例 】 美国 政府 用 大 数据 改善 教育 


近年 来 ， 美 国 高 中 生 和 大 学 生 的 教育 情况 不 容 乐 观 : 高 中 生 退 学 率 高 达 30% ( 平均 
每 26 秒 就 有 一 个 高 中 生 退 学 )，33% 的 大 学 生 需 要 重修 ，46% 的 大 学 生 无 法 正常 毕业 。 
对 此 ， 美 国联 邦 政府 教育 部 2012 年 参与 了 一 项 耗资 两 亿美 元 的 有 关公 共 教 育 的 大 数据 
计划 ， 该 计划 的 目的 是 通过 运用 大 数据 分 析 来 改善 教育 。 联 邦 教育 部 从 财政 预算 中 支出 
2500 万 美元 ， 用 于 理解 学 生 在 个 性 化 层面 是 怎样 学 习 的 。 

美国 教育 部 门 运用 大 数据 创造 了 “学 习 分 析 系 统 "， 它 是 一 个 数据 挖掘 、 模 块 化 和 
案例 运用 的 联合 框架 ， 可 以 向 教育 工作 者 提供 了 解 学 生 到 底 是 在 “怎样 ”学 习 的 更 多 、 
更 好 、 更 精确 的 信息 。 

例如 ， 一 个 学 生成 绩 不 好 是 由 于 他 因为 周围 环境 而 分 心 了 吗 ? 期 末 考 试 不 及 格 是 否 
意味 着 该 学 生 并 没有 完全 掌握 这 一 学 期 的 学 习 内 容 ， 还 是 因为 他 请 了 很 多 病假 的 缘故 ? 
利用 大 数据 的 学 习 分 析 能 够 向 教育 工作 者 提供 有 用 的 信息 ， 从 而 帮助 其 回答 这 些 不 太 好 
回答 的 现实 问题 。 

【 案例 解析 }， 在 本 案例 中 , “学习 分 析 系 统 ” 可 以 通过 大 数据 技术 ， 人 允许 中 小 学 和 
大 学 分 析 从 学 生 的 学 习 行 为 、 考 试 分 数 到 职业 规划 等 所 有 重要 的 信息 。 许 多 这 样 的 数据 
已 经 被 诸如 美国 国家 教育 统计 中 心 之 类 的 政府 机 构 储 存 起 来 用 于 统计 和 分 析 。 

如 今 ， 互 动 性 学 习 的 新 方法 已 经 通过 智力 辅导 系统 、 刺 激 与 激励 机 制 、 教 育 性 的 游 
戏 产 生 了 越 来 越 多 的 尚未 结构 化 的 数据 。 因 此 ， 笔 者 认为 ， 教 育 中 的 非 结 构 化 数据 
( Unstructured Data ) 挖掘 是 迈 向 大 数据 分 析 的 一 项 主要 工作 ， 更 丰富 的 数据 能 给 研究 
者 提供 比 过 去 更 多 的 探究 学 生 学 习 环境 的 新 机 会 。 


15.1.5 【案例 】 大 数据 有 效 地 指导 学 生 学 习 


“渴望 学 习 ”( Desire 2 Learn ) 是 一 家 总 部 位 于 加 拿 大 安大略 省 沃 特 卢 的 教育 科技 
公司 ， 其 推出 了 基于 他 们 自己 过 去 的 学 习 成 绩 数据 预测 并 改善 其 未 来 学 习 成 绩 的 大 数据 
服务 项 目 。 

Desire 2 Learn 公司 的 新 产品 名 为 “学 生成 功 系统 ”( Student Success System )， 
该 产品 通过 监控 学 生 阅 读 电子 化 的 课程 材料 、 提 交 电 子 版 的 作业 、 在 线 与 同学 交流 、 完 
成 考试 与 测验 ， 就 能 让 其 计算 程序 持续 、 系 统 地 分 析 每 个 学 生 的 教育 数据 。 

利用 “学 生成 功 系 统 "， 老 师 得 到 的 不 再 是 过 去 那 种 只 展示 学 生 分 数 与 作业 的 结果 ， 


.. 户 菇 二 


从 
海 
量 
到 
准 


| 访 放 灼 风 漠 迪 本 .多 首 。 作 


由 


区 


丽 器 旦 哆 潭 三 . . 询 距 才 


| 部 片 出 站 泪 共 五 .yy 站 一 错 


而 是 像 阅读 材料 的 时 间 长 短 等 这 样 更 为 详细 的 重要 信息 。 因 此 ， 老 师 可 以 及 时 诊断 问题 
的 所 在 ， 提 出 改进 的 建议 ， 并 预测 学 生 的 期 末 考 试 成 绩 。 

据悉 ， 加 拿 大 和 美国 的 1000 多 万 名 高 校 学 生 正 在 使 用 “学 生成 功 系统 ”来 改善 学 
习 成 绩 。 

【 案例 解析 }， 在 本 案例 中 ，Desire 2 Learn 公司 通过 大 数据 创建 的 学 习 分 析 系 统 ， 
可 以 有 效 地 指导 学 生 朝 着 更 加 个 性 化 的 学 习 进程 迈进 。 

在 大 数据 时 代 ， 通 过 大 数据 进行 学 习 分 析 能 够 为 每 一 位 学 生 都 创设 一 个 量 身 定做 的 
学 习 环境 和 个 性 化 的 课程 ， 还 能 创建 一 个 早期 预警 系统 以 便 发 现 开 除 和 辍学 等 潜在 的 风 
险 ， 为 学 生 的 多 年 学 习 提 供 一 个 富有 挑战 性 而 非 逐 渐 厌 倦 的 学 习 计划 。 

专家 提醒 


大 数据 与 传统 数据 的 区 别 在 于 人 们 对 于 “数据 ”的 理解 更 为 深入 了 ， 许多 我 们 曾经 并 没 
有 重视 的 , 或 者 缺乏 技术 与 方法 去 收集 的 信息 , 现在 都 可 以 作为 “数据 ”进行 记录 与 分 析 了 。 


15.1.6 【案例 】 用 大 数据 管理 上 海 大 学 招生 


在 “大 数据 ”概念 未 出 现时 ， 上 大 已 经 开启 了 数据 信息 库 的 “基础 设施 建设 "。 从 
1998 年 开始 ， 当 时 作为 学 校 “ 招 生 官 ”的 叶 志 明 就 要 求 行政 部 门 工作 人 员 勤 录 数 据 、 筹 
建 信息 库 。 所 有 的 数据 都 要 按照 规定 的 格式 录入 ,并 同时 设 定 不 同 数据 的 属性 , 在 当时 ， 
这 被 认为 是 “繁琐 得 要 命 ” 的 事情 ， 并 不 讨好 。 但 时 至 今日 ， 海 量 数据 已 对 上 大 的 教育 
教学 管理 和 改革 发 挥 了 非常 积极 的 作用 。 

2012 年 ， 上 海 大 学 宣布 退出 春季 高 考 ( 以 下 简称 春 考 )。 业 内 有 分 析 说 ， 除 了 报考 
人 数 下 降 外 ， 春 考 给 学 校 日 常 教学 管理 带 来 难题 ， 甚 至 考 务 成 本 高 昂 等 ， 是 大 学 对 春 考 

“不 感冒 ”的 原因 。 

此 时 ， 已 经 是 上 海 大 学 副 校 长 的 叶 志 明 表 示 :“ 同 样 是 探索 打破 传统 高 考 制度 的 新 
举措 ， 上 大 决定 退出 春 考 ， 但 今后 会 更 加 支持 插班 生 考试 。 这 些 决策 的 依据 ， 正 是 一 揽 
子 和 这 两 项 招生 考试 相关 的 数据 。 

上 海 从 2000 年 率先 推出 春季 高 考 。 同 年 , 上 大 招收 插班 生 的 人 数 为 55 人 , 到 2011 
年 时 ， 插 班 生 招生 数 达 152 人 。 和 秋季 高 考 进 校 的 学 生 作 比较 ， 统 计数 据 表 明 ， 插 班 生 
的 学 习 情况 ， 历 年 来 都 优 于 秋 考 生 。 但 同期 通过 春 考 招收 的 学 生 ， 除 了 2001 一 2004 年 
的 平均 成 绩 超过 秋 考生 外 ， 往 后 的 年 份 里 ， 春 考生 表现 一 路 走低 ，2009 年 时 ， 春 考生 的 
平均 成 绩 更 是 被 秋 考 生 甩 开 了 一 大 截 。 

学 校 通过 分 析 近 10 年 的 招生 数据 ， 很 快 找到 了 其 中 的 原因 。2008 年 以 后 上 海 高 考 
招生 实行 平行 志愿 ， 考 生 由 于 填 志愿 等 原因 落 档 继而 选择 复读 的 人 数 锐 减 。 眼 见 春 考 生 
源 一 年 不 如 一 年 ， 上 大 决定 退出 ， 把 招生 名 额 用 于 生源 更 佳 的 插班 生 考 试 。 

上 大 还 用 数据 来 处 理 延 期 毕业 的 学 生 。 以 上 大 2008 级 学 生 为 例 , 申请 延期 的 有 580 


D> 


人 。 统 计 表 明 ， 其 中 超过 七 成 是 因为 大 一 、 大 二 时 的 公共 基础 课 和 专业 基础 课 “ 挂 科 "。 
另外 ， 学 生 最 容易 不 及 格 的 课程 依次 是 高 等 数学 、 大 学 物理 、 概 率 论 与 数理 统计 、 大 学 
英语 以 及 计算 机 等 。 通 过 在 学 生 的 数据 库 里 搜索 和 分 析 相 关 数 据 ， 就 可 以 轻而易举 地 找 
到 学 校 里 挂 科 率 较 高 的 学 院 。 然 后 ， 通 过 这 个 数据 库 ， 将 延期 问题 进行 聚焦 ， 发 现 很 多 
学 生 无 法 如 期 毕业 ， 隐 患 在 大 一 、 大 二 时 就 已 经 埋 下 了 。 因 此 ， 辅 导 员 和 院 系 分 管教 务 
工作 的 老师 可 以 多 关照 大 一 、 大 二 学 生 的 基础 课 ， 将 学 习 盯 得 紧 一 点 ， 即 可 解决 相关 的 
延期 ”问题 。 

【 案例 解析 】]， 在 本 案例 中 ， 上 海 大 学 是 一 所 面向 全 国 二 十 多 个 省 市 招生 的 高 校 ， 
需要 的 生源 在 哪里 ， 应 该 向 哪些 省 份 多 投放 招生 名 额 ， 这 些 具体 决策 需要 数据 支撑 。 因 
此 ， 笔 者 觉得 上 大 已 经 在 大 数据 战略 上 迈 出 了 重要 的 一 步 ， 今 后 还 可 以 从 其 他 方面 继续 
努力 ， 让 大 数据 管理 支持 更 多 的 学 习 决 策 。 

随 着 数据 越 积 越 多 ， 高 校 人 士 也 开始 意识 到 ， 这 些 数 据 会 “说 话 "， 能 在 办 学 中 派 
更 大 的 用 场 。 笔 者 认为 , “沉睡 多 年 ”的 教育 数据 已 经 苏醒 ， 大 数据 参与 学 校 的 教育 教 
学 管理 尤其 是 改革 方向 的 决策 ， 上 海 大 学 只 是 这 其 中 的 一 个 样本 ， 但 足以 让 人 看 到 一 个 
事实 : 大 数据 时 代 ， 高 校 教育 也 正 由 此 可 以 发 生变 革 。 


15.2 ”体育 领域 大 数据 应 用 案 倒 


尽管 科学 家 预言 大 数据 将 改变 未 来 人 类 生活 的 方方面面 ， 但 它 确 实 首先 在 体育 赛事 
中 展现 了 自己 的 价值 ， 并 彻底 颠覆 了 传统 的 体育 理念 。 本 节 主 要 介绍 大 数据 在 体育 领域 
的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价值 。 


15.2.1 【案例 】Nike 记录 运动 中 的 数据 价值 


Nike 作为 全 球 最 大 的 运动 品牌 公司 之 一 ， 曾 在 官网 上 公布 了 这 样 两 则 信息 :“ 在 冬 
天 ， 美 国人 比 欧洲 和 非洲 人 都 更 喜欢 跑步 这 项 运动 ， 但 美国 人 平均 每 次 跑步 的 长 度 和 时 
间 都 比 欧洲 人 短 "， 所 以 Nike 计划 在 不 同 的 市 场 区域 做 好 不 同 的 产品 划分 ， 运 动 鞋 的 设 
计 也 根据 区 域 的 不 同 做 了 独立 调整 。 

耐克 公司 与 苹果 电脑 公司 这 两 家 全 球 首屈一指 的 大 型 公司 终于 推出 了 合作 后 的 第 
一 款 产品 Nike Plus， 它 可 以 让 耐克 公司 的 运动 鞋 和 苹果 电脑 公司 的 iPod Nano 便携 式 
媒体 播放 器 进行 通信 。Nike + iPod 运动 联合 系统 包含 一 个 放置 在 耐克 运动 鞋 衬 垫 下 的 小 
巧 的 椭圆 形 晶片 ( 有 点 类 似 SIM 卡 ) 和 一 个 装备 在 iPod Nano 便携 式 媒体 播放 器 上 的 小 
型 传感器 ， 如 图 15-3 所 示 。 
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图 15-3 ”Nike+iPod 运动 联合 系统 


Nike Plus 相关 的 软件 除了 可 以 捕获 像 时 间 和 距离 这 样 的 一 般 数 据 外 , 其 还 包含 有 一 
个 语音 系统 可 以 交流 更 多 的 信息 ， 这 有 点 类 似 汽车 上 的 导航 系统 。 另 外 ，Nike Plus 还 可 
以 给 运动 者 提供 运动 的 激情 ， 耐 克 公 司 搜罗 了 兰 斯 " 阿姆斯特朗 和 保 拉 。 拉 德 克 利夫 在 
运动 时 的 一 些 心得 体会 ， 后 者 是 马拉松 纪录 的 保持 者 。 这 样 我 们 在 运动 时 就 可 以 分 享 这 


些 运动 大 师 最 喜爱 的 音乐 和 运动 激情 所 在 


了 。 


苹果 电脑 公司 的 iTunes 音乐 在 线 零售 商店 也 增设 了 一 个 耐克 运动 音乐 区 域 为 喜爱 
运动 的 消费 者 提供 体能 测验 以 及 运动 激情 等 。 
消费 者 在 进行 运动 测验 时 ，iPod Nano 便携 式 媒体 播放 器 的 屏幕 上 可 以 显示 相关 的 
测验 数据 以 及 测验 总 结 等 。iPod Nano 便携 式 媒体 播放 器 上 显示 的 自己 体能 测验 数据 可 
以 上 传 到 nikeplus.com 网 站 上 ， 如 图 15-4 所 示 。 
ET 
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QQ 六 入 越 市 、 当 或 邮 下 编码 


图 15-4 nikeplus.com 网 站 


nikeplus.com 上 有 实时 数据 更 新 ， 因 


此 使 用 


者 对 自己 跑步 的 公 旦 


E 数 、 消 耗 的 卡路里 


以 及 路 径 都 能 了 如 指 掌 , 还 可 以 分 享 并 关注 朋友 们 取得 的 进步 ， 这 个 创新 不 仅仅 使 Nike 
Plus 变 成 了 体育 运动 爱好 者 的 Facebook，Nike 也 成 功 建立 了 全 球 最 大 的 运动 相关 的 网 
上 社区 ( 有 超过 5 百 万 的 活跃 注册 用 户 ， 上 传 超过 几 十 亿 公里 数 和 几 百 亿 卡路里 数 )。 

【 案例 解析 }， 在 本 案例 中 ，Nike 的 成 功 和 市 场 上 的 特 立 独行 正 是 来 源 于 对 自身 产 
品 和 消费 者 的 数据 挖掘。 

试想 一 下 ， 如 果 一 双 专 业 跑 步 鞋 除了 给 人 们 提供 足够 的 运动 性 能 以 外 ， 同 时 又 要 适 
合 各 种 运动 员 的 穿着 与 跑步 ， 那 么 没有 一 个 跑步 数据 测试 工具 ， 怎 么 能 够 测试 出 运动 员 
要 怎么 跑 才 能 减少 失误 与 提高 效率 呢 ? 因 此 ， 如 果 在 一 双 耐 克 跑 步 鞋 上 装 上 Nike Plus 
跑步 数据 工具 ， 就 能 更 快 、 更 准确 地 测 出 运动 员 跑步 的 效率 ， 以 及 了 解 自己 要 怎么 跑 才 
能 够 提高 效率 。 


15.2.2 【案例 】 大 数据 助力 NBA 赛事 全 过 程 


NBA ( National Basketball Association ， 即 美国 篮球 职业 联赛 ) 早 从 1980 年 就 开 
始 使 用 数据 管理 技术 ， 统 计 所 有 球员 和 得分、 篮板、 助攻、 盖帽、 抢断 、 失 误 、 犯 规 等 一 
系列 场 上 数据 ， 如 图 15-5 所 示 。NBA 通过 详实 而 细致 的 数据 统计 ， 不 仅 可 以 提供 单个 
球员 的 查询 服务 ， 还 可 以 对 比 两 名 球员 ， 包 括 两 人 对 位 攻防 时 的 表现 ， 并 进行 数据 化 分 
析 。 例 如 ， 詹 姆 斯 场 均 能 得 28 分 ， 科比 得 27 分 ， 但 当 两 人 相遇 时 ， 科 比 场 均 能 得 到 
30 分 ， 詹 姆 斯 只 有 24 分 。 


数据 统计 
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. .请 噬 才 


从 
交 
昌 
到 
准 


a | 放 上 崩 只 让 认 五 .yy 站 和 


. 请 噬 才 


两 姓 交 疝 闸 三 


,| 部 片 凋 直 注 闪 五 . 少 阐 ”多 


如 今 ，NBA 的 数据 统计 和 管理 更 为 成 熟 丰富 ， 还 能 提供 包括 场 上 效率 、 得 分 区 域 等 
分 析 。 例 如 ，2012 年 席卷 NBA 的 华 帘 运动 员 林 书 豪 ， 在 爆发 期 间 一 直 被 专家 诉 病 的 一 
点 就 是 失误 太 多 。 这 正 是 来 自强 大 的 数据 统计 ， 他 的 助攻 失误 比 仅 为 2.0， 也 就 是 说 每 
送出 两 个 助攻 就 要 伴随 一 次 失误 ， 而 项 级 后 卫 保 罗 的 助攻 失误 比 为 4.6， 超 出 林 书 豪 一 
倍 ， 显 然 更 为 出 色 。 

在 NBA 的 中 文官 方 网 站 上 ， 有 专门 的 统计 页 面 ， 上 面 把 NBA 历史 上 收集 的 几乎 所 
有 球员 、 球 队 信息 以 非常 易 用 的 方式 提供 出 来 , 后 台 使 用 了 SAP HANA 这 样 的 内 存 分 析 
数据 库 ， 以 应 对 网 站 数 以 万 计 的 访问 者 的 访问 ， 提 高 随机 、 灵 活 查询 的 速度 ， 它 提供 了 
一 种 前 所 未 有 的 用 户 体验 ， 以 及 对 上 百 个 指标 的 不 同 过 滤 、 统 计 和 排序 等 ， 用 户 可 以 定 
制 分 析 报 表 ， 而 不 需要 大 量 固化 报表 格式 和 场景 ， 如 图 15-6 所 示 。 
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图 15-6 NBA 热 区 数据 分 析 


【 案例 解析 }， 在 本 案例 中 ，NBA 非常 聪明 ， 把 这 些 数据 开放 出 来 ， 让 大 家 都 对 它 
们 感 兴趣 ， 让 每 个 球迷 都 有 可 能 “如 数 家 珍 " ， 增 加 球迷 们 对 球星 们 的 迷恋 程度 ， 也 从 
而 增加 对 NBA 比赛 的 热爱 程度 。 

一 个 看 似 并 不 “高 科技 ”的 体育 项 目 ， 都 可 以 如 此 利用 “大 数据 ”的 手段 ， 以 提供 
非常 优秀 的 用 户 体验 ， 从 数据 收集 到 数据 统计 和 挖掘 ， 到 优秀 的 数据 展现 ， 非 常 值得 其 
他 企业 学 习 。 有 了 这 样 严格 、 精 细 的 量化 ， 就 有 了 科学 的 态度 ， 也 就 有 了 科学 的 指导 思 
想 和 手段 。 


15.2.3 


到 目前 
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【 秦 例 】 大 数据 颠覆 网 球 的 游戏 规则 


2013 年 ) 为 止 ，IBM 与 法 国 网 球 协会 合作 有 28 年 了 ， 为 法 国 网 球 公开 赛 
“法 网 ”) 提供 支持 。IBM 为 法 网 带 来 一 系列 解决 方案 ， 全 部 都 以 实时 及 历 


大 满 贯 赛事 数据 为 中 心 。IBM 负责 获取 、 分 析 、 保 护 、 存 储 和 分 发 法 网 的 全 部 数据 ， 


实际 上 ， 大 数据 是 IBM 与 法 国 网 球 协 会 合作 的 核心 。 
IBM 以 多 种 方式 使 用 大 数据 改善 网 球 比赛 ， 将 法 网 的 行动 带 给 世界 各 地 的 球迷 、 
练 、 球 员 和 媒体 。 例 如 , 使 用 SlamTracker we ww 
SlamTracker 分 析 8 年 的 法 网 网 球 比赛 数据 ( 每 场 比赛 4100 万 个 数据 点 )， 为 每 个 
球员 确定 将 影响 一 场 特定 比赛 的 三 项 关键 策略 , 并 将 其 称 之 为 “比赛 的 关键 点 "( keys to 
the match )。 在 比赛 前 ， 球 迷 可 登录 网 站 查看 每 个 球员 在 一 场 比赛 中 的 关键 点 ， 在 比赛 
期 间 根据 这 些 关键 点 ， 逐 项 实时 观看 球员 的 进步 ， 如 图 15-7 所 示 。 
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图 15-7 查看 每 个 球员 在 比赛 中 的 关键 点 


【 案例 解析 }， 在 本 案例 中 ， 通 过 1BM 的 SlamTracker 数据 分 析 工 具 ， 系 统 可 以 从 
过 去 的 激烈 比赛 中 过 滤 并 且 排 列 每 位 选手 在 比赛 中 的 三 个 最 重要 的 得 分 。 例 如 ， 一 个 选 
手 第 二 次 发 球 可 能 需要 达到 一 定 比例 才能 获胜 ， 或 者 长 球 得 分 是 否 有 利于 某 位 对 手 。 在 
比赛 之 前 了 解 关键 进 球 ， 然 后 在 比赛 进行 过 程 中 关注 选手 的 表现 ， 用 户 可 以 实时 看 到 关 
键 进 球 是 成 功 的 良好 预测 指标 。 


前 病房 的 婴 ) 


其 实 ， 这 项 技术 不 仅 限 于 在 体育 比赛 中 应 用 ， 同 样 的 分 析 软 件 也 在 医院 用 于 监控 产 


L、 在 警察 局 用 于 预防 犯罪 ， 并 且 在 金融 服务 公司 用 于 改善 客户 服务 并 降低 
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成 本 。 
15.2.4 【案例 】 从 大 数据 中 获得 宝贵 洞察 力 


IBM 作为 温 布尔 顿 网 球 锦标 赛 的 赞助 商 ， 不 久 前 向 中 心 球场 推出 了 一 项 名 为 IBM 
SecondSight 的 新 技术 。 

IBM SecondSight 的 想法 来 自 两 年 前 锦标 赛 的 一 个 重大 事件 ， 当 时 ， 美 国 的 John 
lsner 和 法 国 的 Nicolas Mahut 进行 了 一 场 专业 网 球 比赛 ， 这 是 历史 上 最 长 的 一 次 比赛 。 
183 局 的 比赛 长 达 11 个 小 时 零 五 分 钟 ， 历 时 三 天 。 期 间 , 平局 比赛 的 分 数 不 断 升 高 , 计 
分 系统 的 设计 人 员 没 有 预测 到 需要 记录 并 显示 如 此 高 的 分 数 ， 面 临 着 数字 用 完 的 风险 。 
最 后 ，lsner 以 一 记 “ 超 身 球 ” 结 束 了 比赛 ， 在 平局 比赛 中 获胜 。 

IBM 英国 公司 客户 与 计划 业务 主管 Alan Flack 从 这 次 比赛 中 得 到 启发 :“ 我 们 为 何 
不 追踪 球员 的 运动 ? 毕竟 , 我 们 记录 了 比赛 的 其 他 所 有 内 容 。” 于 是 ，Alan Flack 决定 与 
一 家 主 营 业务 是 追踪 导弹 的 技术 合作 伙伴 共同 开发 这 样 的 系统 。 

IBM SecondSight 借助 多 个 按 战略 角度 分 布 的 摄像 头 采集 数据 ， 可 以 实时 追踪 球员 
的 运动 ， 并 以 数字 化 屏幕 显示 方式 展现 给 球迷 ， 并 且 带 有 表示 球员 的 头像 。 球 迷 可 以 点 
击 图 标 查看 最 新 的 比赛 分 析 。 谁 的 动作 更 快 ? 谁 跑 得 更 远 ? 是 否 有 人 累 了 ? 

【 案例 解析 】])， 在 本 案例 中 ，IBM SecondSight 展示 了 从 比赛 纯 物理 角度 来 讲 最 深 
层 的 视图 ， 丰 富 了 球迷 ( 以 及 教练 和 官员 ) 的 网 球 知识 。 虽 然 处 于 初级 阶段 ， 但 笔者 能 
够 想象 到 运动 追踪 技术 在 网 球 和 其 他 体育 比赛 之 外 的 领域 中 的 强大 用 途 。 例 如 ， 这 项 技 
术 可 用 于 监控 和 分 析 商 场 、 工 厂 、 机 场 的 人 员 移 动 ， 或 者 高 速 公路 的 车 流 ， 我 们 能 够 从 
这 类 信息 中 获得 宝贵 的 洞察 力 。 


15.2.5 【案例 】 用 预测 分 析 软 件 来 防止 受伤 


在 超级 联赛 十 五 人 橄榄 球赛 中 ， 莱 斯 特 老虎 队 已 经 开始 利用 IBM 的 预测 分 析 软 件 ， 
来 评估 球员 受伤 的 可 能 性 ， 为 处 于 险 境 的 球员 设计 个 性 化 的 训练 计划 。 

几 个 赛季 以 来 ， 莱 斯 特 老虎 队 一 直 在 收集 数据 ， 以 期 获得 竞争 优势 。 莱 斯 特 老虎 队 
的 数据 收集 几乎 是 不 间断 的 ， 队 员 配 备 GPS 监视 器 和 加 速 器 ， 这 些 设备 测评 他 们 的 碰 
撞 强 度 ， 同 时 收集 数据 来 监控 球员 的 疲劳 程度 ， 这 是 一 项 关键 的 伤害 预测 变量 。 常 规 的 
调查 问卷 也 收集 主观 性 的 生活 方式 信息 。 

莱 斯 特 老虎 队 的 运动 科学 主管 Andrew Shelton 表示 :“ 任 何人 都 可 以 收集 数据 ， 但 
重要 的 是 ， 如 何 利用 这 些 重 要 的 数据 。 我 们 希望 能 够 更 好 地 利用 我 们 的 数据 ， 尽 可 能 好 
地 为 每 个 球员 提供 最 佳 的 表现 机 会 。 如 果 你 在 球场 上 有 最 优秀 的 球员 ， 那 么 失利 的 可 能 
性 就 小 。 这 不 是 多 么 高 深 复杂 的 事情 ， 我 们 想 要 向 下 挖掘 数据 ， 确 定 如 何 能 防止 球员 受 


D> 


伤 。 

通过 利用 IBM 的 大 数据 预测 分 析 软 件 ，Shelton 的 队伍 可 以 看 到 一 个 球员 的 一 项 或 
多 项 疲劳 参数 是 否 发 生 了 重大 变化 ， 因 此 如 果 球 员 要 参加 一 个 高 强度 训练 项 目 ， 分 析 软 
件 可 预测 重大 伤害 风险 ， 球 队 可 通过 这 样 的 洞察 力 相应 改变 个 人 的 训练 计划 。 

【 案例 解析 】]， 使 用 数据 使 体育 俱乐部 能 够 更 加 科学 地 评价 球员 ， 这 是 另 一 个 新 兴 
领域 。 在 本 案例 中 可 以 看 出 ， 从 挑选 最 高 效 的 球员 ， 到 最 大 限度 地 减少 受伤 概率 ， 以 及 
改善 球迷 体验 等 ， 数 据 分 析 在 体育 世界 的 应 用 越 来 越 广泛 。 

专家 提醒 

美国 奥克兰 市 运动 家 棒球 队 ， 曾 因 采 用 数学 模型 来 预测 球员 成 绩 、 踪 选 球员 而 大 幅 改 变 
了 球 队 成 绩 ， 创造 了 美国 棒球 联赛 史上 最 长 的 连续 获胜 纪录 。 此后， 越 来 越 多 的 球 队 开始 运 
用 预测 模型 评估 球员 的 潜力 和 市 场 价值 , 而 那些 先行 一 步 的 球 队 几 乎 都 赢得 了 显著 的 竞争 优 
势 ， 明 显 胜 过 比 他 们 更 保守 的 同行 。 


15.2.6 【案例 】 普 通 球迷 也 能 成 为 分 析 专家 


2012 年 ， 腾 讯 网 正式 推出 国内 首创 的 NBA 数据 库 大 师 ， 结 合 视频 和 专家 分 析 ， 给 
球迷 带 来 了 全 新 的 视频 体验 以 及 更 真实 、 更 全 面 的 篮球 享受 ， 如 图 15-8 所 示 。 


图 15-8 腾讯 NBA 数据 库 大 师 主 页 


NBA 数据 库 大 师 全 面 记录 了 NBA 球星 投篮 、 失 误 、 助 攻 、 抢断 和 犯规 等 10 大 数据 ， 
同时 结合 了 比赛 视频 和 专家 解说 分 析 的 多 功能 数据 系统 。 也 就 是 说 ，NBA 数据 库 大 师 将 
会 记录 下 每 个 球星 在 球场 上 的 表现 ， 包 括 投篮 、 三 分 、 失 误 等 。 另 外 ， 球 星 的 每 个 动作 ， 

会 用 圆圈 或 者 是 箭头 来 表示 ， 并 且 每 个 图 标 都 含有 视频 的 链接 。 用 户 随便 点 击 一 个 图 
标 ， 就 会 出 现 相 对 应 的 视频 。 


更 重要 的 是 ， 在 该 平台 上 ， 国 内 项 尖 NBA 专家 还 通过 腾讯 微 博 ， 随 时 随地 与 网 友 
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分 享 自己 的 NBA 见解 。 普 通 球 迷 在 欣赏 NBA 专家 点 评 的 同时 ， 可 以 与 NBA 大 师 进行 
讨论 、 互 动 ， 提 高 自己 的 水 平 ， 最 终 成 为 NBA 分 析 大 师 。 

【 案例 解析 】， 在 本 案例 中 ， 作 为 当前 国内 流量 最 高 、 影 响 力 最 大 、 产 品 线 最 全 的 
门户 网 站 腾讯 ， 在 NBA 数据 库 大 师 平台 上 提供 了 海量 的 视频 数据 、 独 家 的 NBA 资讯 、 
国内 顶尖 NBA 专家 的 专业 解读 ， 不 仅 给 球迷 带 来 了 全 新 的 视频 体验 以 及 更 真实 、 更 全 
面 的 篮球 享受 ， 并 且 帮 助 球迷 成 长 为 NBAMaster ( NBA 大 师 )。 

笔者 认为 这 是 腾讯 “点 石 成 金 ”的 关键 一 招 , “大 数据 ”加 上 “分 析 "， 才 有 可 能 有 
价值 ， 才 有 意义 。 "分 析 ” 才 是 关键 能 力 ， 没 有 “分 析 ” 的 “大 数据 "， 就 是 一 场 淹没 一 
切 的 数据 海啸 ， 是 灾难 。 

我 们 可 以 用 “分 析 ” 从 大 量 的 数据 中 寻找 相关 性 模式 ， 发 现 以 前 不 为 人 知 的 、 超 越 
于 平凡 知识 之 上 的 、 至 关 重 要 的 新 知识 。 这 样 的 新 知识 , 是 隐藏 在 表象 之 下 的 获胜 关键 ， 
是 决定 竞争 结局 的 密码 ， 是 价值 和 财富 。 很 多 商业 界 的 有 识 之 土 正 是 发 现 了 这 一 点 ， 才 
会 狂热 地 追捧 大 数据 。 我 们 也 可 以 想象 一 下 ， 如 果 把 这 样 的 能 力 放 在 商业 里 ， 放 在 公共 
服务 里 ， 放 在 日 常 的 工作 和 生活 里 ， 能 给 我 们 带 来 什么 ? 


15.3 ” 影 吾 召 体 大 数 棍 应 用 案 倒 


经 过 两 年 的 积淀 与 发 展 ， 新 媒体 影视 业 在 2013 年 呈现 爆发 性 增长 。 凭 借 对 用 户 的 
精准 定位 ， 以 及 对 市 场 的 迅速 反应 ， 新 媒体 影视 正在 对 传统 影视 形成 极 大 冲击 。 笔 者 认 
为 ， 精 准 的 数据 分 析 ， 将 成 为 新 媒体 影视 能 否 获得 成 功 的 关键 。 本 节 主 要 介绍 大 数据 在 
媒体 影视 业 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启发 和 学 习 价 值 。 


15.3.1 【案例 】《 和 葡 和 爸 去 哪儿 》 成 口碑 之 王 


眼下 最 炙手可热 的 真人 秀 栏目 《和 爸爸 去 哪儿 》， 是 中 国 湖南 卫视 从 韩国 MBC 电视 台 
引进 的 亲子 户外 真人 秀 节目 , 概念 参考 自 韩 国 MBC 电视 台 节 目 《爸爸 ! 我 们 去 哪儿 ? ); 
这 是 继 湖南 卫视 《 变形 计 》 之 后 又 一 档 真人 秀 亲 子 交互 节目 。 

《和 爸爸 去 哪儿 》 讲 述 了 5 位 明星 爸爸 跟 子女 72 小 时 的 乡村 体验 ， 和 爸爸 单独 肩负 起 
照顾 孩子 饮食 起 居 的 责任 ,节目 组 设置 一 系列 由 父子 ( 女 ) 共同 完成 的 任务 , 父子 ( 女 ) 
俩 在 不 熟悉 的 环境 下 状况 百出 。 毫 无 疑问 ， 亲子 类 的 节目 概念 在 中 国电 视 圈 内 颇具 创新 
意义 。 面 对 “ 父 爱 ”普遍 缺失 的 现状 ， 湖 南 卫 视 的 这 档 节目 可 以 说 是 十 分 及 时 ， 不 仅 让 
爱 回 归 ， 同 样 也 能 让 初 为 父母 的 普通 年 轻 人 对 育儿 有 一 个 全 新 的 认识 。 

新 华 社 新 媒体 中 心 联合 数 托 邦 工作 室 抓 取 了 新 浪 微 博 上 提 及 (爸爸 去 哪儿 》 的 45.5 
万 条 原创 微 博 , 并 对 36.7 万 独立 原 发 作者 用 户 ( 去 除 疑 似 水 军 账户 人 1300 余 万 条 用 户 


D> 


微 博 及 近 1 亿 的 关系 进行 数据 分 析 ， 如 图 15-9 所 示 。《 区 和 爸 去 哪儿 》 不 仅 成 为 名 副 
的 “口碑 王 "， 还 使 娱乐 节目 发 生 了 很 多 微妙 的 变化 。 


将 


89.26% 85.98% 83.15% 80.86% 79.63% 75.75% 
爸爸 去 哪儿 中 国 好 声音 ”快乐 男声 。 天 天 向 上 快乐 大 本 营 ”非诚勿扰 


图 15-9 2013 年 各 热门 电视 节目 口碑 比较 


湖南 卫视 《爸爸 去 哪儿 》 和 凭借 “ 萌 点 ”打动 不 少 观 众 ， 几 乎 “ 零 差 评 ” 的 口碑 令 其 
收视 较为 突出 ， 其 中 CSM 全 国 网 数据 显示 : 收视 率 1.1， 市 场 份额 7.67%; CSM 29 城 
市 网 数据 显示 : 收视 率 1.46, 市 场 份额 6.45%。 在 这 两 个 收视 数据 网 里 ,《 爸爸 去 哪儿 》 
均 同 时 段 第 一 。 

【 案例 解析 ])， 从 本 案例 中 可 以 看 出 ， 大 数据 的 深入 人 心 ， 或 指明 了 未 来 电视 必须 
从 粗放 式 营销 到 精准 营销 转变 的 方向 。 对 做 内 容 产品 来 说 ， 事 先 对 数据 掌握 得 越 充分 ， 
未 来 在 销售 上 就 越 有 信心 。 例 如 ， 哪 些 人 是 你 的 忠实 用 户 ， 哪 些 用 户 会 根据 节目 产生 消 
费 行为 ， 只 有 掌握 这 些 数据 ， 才 能 判断 某 种 类 型 的 节目 适合 做 哪 种 产品 。 

由 此 可 见 ， 小 作坊 单打 独 斗 的 时 代 已 经 过 去 ， 只 有 坚持 以 数据 为 基础 ， 掌 握 用 户 的 
喜好 ， 再 通过 流程 化 的 制作 ， 才 可 能 在 互联 网 时 代 找 到 属于 自己 的 立足 之 地 。 


15.3.2 【案例 】 用 大 数据 来 挖掘 《小 时 代 》 


刚刚 闭幕 的 第 16 届 上 海 国际 电影 节 又 让 “大 数据 ”成 为 焦点 ， 而 郭敬明 执导 的 电 
影 《 小 时 代 》 更 是 借助 大 数据 的 东风 在 上 海 国 际 电影 节 大 出 风头 。 

电影 《小 时 代 》 讲 述 的 是 以 经 济 飞 速 发 展 的 上 海 为 背景 ，4 个 从 高 中 就 开始 在 一 起 
生活 的 女生 的 故事 。 你 可 以 讨厌 《小 时 代 》 但 你 却 不 能 忽视 《小 时 代 》 的 观众 群 ， 因 
为 他 们 或 许 将 决定 中 国电 影 的 未 来 。 在 一 片 争议 声 中 ， 成 本 仅 2000 万 元 的 《小 时 代 》 
获得 了 接近 5 亿 元 的 票房 。 按 投资 回报 比 计算 ， 它 甚至 有 望 成 为 2013 年 “最 赚钱 ”的 
华语 电影 。 

数 托 邦 工作 室 采 用 新 媒体 大 数据 分 析 手 段 ， 对 《小 时 代 》 的 观 影 人 群 进行 了 调查 分 
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析 。 接 下 来 就 让 我 们 从 大 数据 的 角度 出 发 ,“ 挖 一 挖 ”这 部 精确 定位 的 所 谓 “ 脑 残 粉 ” 
电影 的 观 影 群 体 。 数 托 邦 工作 室 的 数据 采集 方法 如 表 15-1 所 示 。 


表 15-1 数 托 邦 工作 室 的 数据 采集 方法 


采集 方法 


具体 数据 


取样 时 间 “| 2013-06-27 到 2013-07-01， 即 《小 时 代 》 上映 之 日 起 连续 5 天 


抽样 范围 


篇 微 博 


每 天 抽取 两 万 余 条 包含 “小 时 代 ” 关键 词 的 微 博 ， 共 采集 到 106674 


用 户 抽样 “| 从 106674 篇 微 博 中 抽取 原 发 作者 用 户 ， 去 重 后 得 到 100815 位 用 户 


用 户 筛选 


采用 数 托 邦 工作 室 的 核心 算法 (准确 率 超过 90%), 去 除 高 度 疑 似 “ 水 
军 ” 账 号 8670 个 ， 去 除 机 构 账 号 945 个 ， 共 保留 91200 位 用 户 


群体 微 博 “| 采集 9 万 余 位 用 户 近期 共 约 900 万 条 有 效 微 博 


如 图 15-10 所 示 , 在 《小 时 代 》 的 9 万 多 位 微 博 原 发 作者 中 , 女性 占 到 了 八成 以 上 ， 


接近 半数 还 是 微 博 达 人 , 她 们 积极 地 参与 了 《小 
时 代 》 这 部 电影 的 观 影 、 评 论 、 分 享 、 传 播 其 
至 争论 ， 创 造 了 数 倍 于 其 他 电影 的 有 关 《 小 时 
代 》 的 各 种 微 博 。 可 见 ， 她 们 既是 《小 时 代 》 
电影 的 主要 观众 群体 ， 也 对 这 部 电影 的 传播 和 
营销 起 到 了 至 关 重 要 的 推手 作用 。 

【案例 解析 】: 在 本 案例 中 ， 大 数据 分 析 扮 
演 着 一 个 针对 影视 制作 及 投资 决策 建议 平台 的 
角色 ， 它 可 以 提供 对 市 场 的 理性 预期 ， 用 精准 
的 量化 数字 计算 可 能 的 投资 回报 率 。 大 数据 虽 
然 解决 不 了 艺术 性 的 问题 ， 但 是 却 有 商业 借鉴 
意义 。 另 外 ， 大 数据 的 分 析 还 直接 影响 后 期 广 


15-10 《小 时 代 》 的 观众 群体 分 析 


告 投放 ， 以 及 衍生 品 的 开发 ， 有 利于 全 价值 链 研究 。 

因此 ， 笔 者 不 得 不 承认 ， 大 数据 对 于 当下 电影 创作 起 着 至 关 重 要 的 作用 。 尽 管 电影 
作为 具有 艺术 属性 的 工业 产品 ， 无 法 用 任何 数据 、 技 术 手 段 取代 ， 但 除了 创作 之 外 的 部 
分 ， 如 前 期 的 观众 导 流 、 后 期 的 宣传 大 多 都 是 可 以 利用 大 数据 去 解决 的 。 


15.3.3 【案例 】《 纸 牌 屋 》 变 革 传 统 电视 业 


大 卫 … 芬 奇 的 “ 导 ” 和 凯 文 “ 斯 派 西 的 “ 演 ", 无 疑 是 美剧 (纸牌 屋 》 走 红 的 关键 原 
因 。 事 实 上 ， 在 两 位 重量 级 主创 促成 的 成 功 背 后 ,〈 纸牌 屋 》 具 有 更 多 跨 时 代 的 意义 一 一 网 


站 主导 、 数 据 先行 。 


出 品 方 兼 播放 平台 Netflix 根据 用 户 的 数据 总 结 收视 习惯 , 并 根据 对 用 户 喜 好 的 精准 
分 析 来 创作 《 纸牌 屋 》。(《 纸牌 屋 》 的 数据 库 包 含 了 3000 万 用 户 的 收视 选择 、400 万 条 
评论 、300 万 次 主题 搜索 。 最 终 ， 拍 什么 、 谁 来 拍 、 谁 来 演 、 怎 么 播 ， 都 由 数 千 万 观众 
的 客观 喜好 统计 决定 。 例 如 ， 在 记录 暂停 、 倒 退 、 快 进 、 评 分 、 搜 索 的 同时 ， 进 行 大 量 
截图 , 试图 分 析 用 户 在 音量 、 画 面色 彩 甚至 场景 选取 上 的 喜好 。 从 受众 洞察 、 受 众 定位 、 
受众 接触 到 受众 转化 ， 每 一 步 都 由 精准 细致 高 效 经 济 的 数据 引导 ， 从 而 实现 大 众 创造 的 
C2B ( Customer to Business， 即 消费 者 对 企业 )， 即 由 用 户 需求 决定 生产 。 

根据 数据 ， 点 击 率 非常 高 的 鬼才 导演 大 卫 ， 芬 奇 和 男 演员 凯 文 * 斯 派 西 ， 成 为 了 主 
创 选择 ; 再 根据 “政治 惊悚 ”这 类 电影 的 受 欢 迎 程度 ，Netflix 狠 下 心肠 扔 出 了 过 亿美 金 ， 
自制 出 了 这 部 《纸牌 屋 》。 

Netflix 将 文艺 创作 一 丝 不 苟 地 建立 在 对 冰冷 数据 的 分 析 上 ， 而 且 达 到 了 意 想不到 的 
好 效果 ,《 纸牌 屋 》 迅 速成 为 美国 及 其 他 40 多 个 国家 播 出 频率 最 高 的 电视 节目 ， 评 论 家 
毫 不 吝 音 地 给 予 它 赞 美 之 词 ， 称 之 为 “是 一 部 艾 美 奖 水 准 的 电视 剧 "。 

【案例 解析 }， 在 本 案例 中 , 《纸牌 屋 》 的 成 功 得 益 于 Netflix 海量 的 用 户 数据 积累 和 
分 析 。 在 任何 一 门生 意 中 ， 能 够 预见 未 来 都 是 可 怕 的 ，Netflix 在 《纸牌 屋 》 一 战 中 可 能 
已 经 接近 这 个 水 准 。 

如 今 ， 互 联网 以 及 社交 媒体 的 发 展 让 人 们 在 网 络 上 留 下 的 数据 越 来 越 多 ， 海 量 数据 
再 通过 多 维度 的 信息 重组 使 得 企业 都 在 谋求 各 平台 间 的 内 容 、 用 户 、 广 告 投放 的 全 面 打 
通 ， 以 期 通过 用 户 关系 链 的 融合 ， 网 络 媒体 的 社会 化 重 构 ， 为 广告 用 户 带 来 更 好 、 更 精 
准 的 社会 化 营销 效果 。 

笔者 觉得 ， 在 不 久 的 将 来 ， 大 数据 挖掘 获得 的 结果 也 许 比 一 个 行业 老手 的 直觉 判断 
更 准确 。 当 然 事情 都 有 两 面 性 ， 大 数据 分 析 在 国内 影视 产业 领域 技术 尚未 成 熟 ， 但 这 恰 
恰 是 大 数据 在 电影 产业 的 机 遇 ， 也 正 是 大 量 大 数据 分 析 技术 人 才 的 机 遇 ， 随 着 互联 网 的 
蓬勃 发 展 以 及 中 国电 影 产 业 的 壮大 ， 势 必 迎 来 大 数据 分 析 的 春天 。 


专家 提醒 


当然 ， 电 影 产业 及 市 场 还 有 很 多 影响 因素 ， 不 仅仅 是 理性 的 数据 分 析 ， 更 有 感性 东西 融 
入 在 电影 中 ， 但 大 数据 对 于 电影 产业 的 影响 将 会 至 关 重要 。 


15.3.4 【案例 《纽约 时 报 》 让 报纸 智能 化 


《纽约 时 报 》( The New York Times ) 作为 一 份 享有 世界 声誉 的 报纸 ， 是 美国 新 闻 
界 的 领头 羊 和 风向 标 。 在 IT 技术 的 应 用 方面 ,《 纽约 时 报 ) 不 惜 重金 打造 智能 商业 系统 ， 
将 围绕 实时 分 析 、 智 能 预测 和 用 户 互动 三 大 IT 技术 来 提高 新 闻 发 布 和 时 事 分 析 的 质量 。 
例如 ， 位 于 加 勒 比 海北 部 的 海地 发 生 大 地 震 后 ， 关 于 震 情 和 救援 的 报道 占据 了 各 大 
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报纸 和 网 站 的 首页 。( 纽约 时 报 》 将 地 震 前 后 同一 个 地 点 的 卫星 地 貌 照片 重 又 放 在 了 同 
一 个 窗口 内 ， 窗 口内 部 有 一 个 类 似 窗帘 的 分 屏 箭头 ， 通 过 拉动 它 ， 读 者 可 以 看 到 同一 个 
地 点 地 震 前 后 的 变化 。 拉 动 分 屏 箭头 的 同时 ， 还 会 自动 浮现 出 相关 的 文字 说 明 ， 如 
图 15-11 所 示 。 


图 15-11 《纽约 时 报 》 关 于 海地 大 地 震 的 报道 页 面 


地 震 前 ， 高 尔 夫 球场 一 片 翠绿 ; 地 震 后 ， 曾 经 翠绿 的 高 尔 夫 球场 ， 挤 满 了 帐篷 …… 
通过 这 种 对 比 ， 可 以 看 到 地 表 遭 受 的 巨大 破坏 和 当地 灾民 无 家 可 归 的 惨状 。 和 将 两 张 地 
图 简单 地 放 到 一 起 相 比 ， 这 种 信息 表达 方式 增强 了 对 比 效果 ， 使 对 比 更 加 直观 、 一 目 
了 然 。 

【 案例 解析 ]， 在 本 案例 中 ,〈 纽约 时 报 》 通 过 对 数据 信息 内 容 独具匠心 的 整合 ， 把 
零散 的 信息 融合 为 新 的 知识 ， 产 生 了 “1+ 1>2” 的 效果 ， 给 商务 智能 如 何 走向 大 众 化 
提供 了 很 好 的 启发 。 商 务 智 能 的 应 用 注重 信息 的 分 析 和 整合 ， 一 个 好 的 商务 智能 产品 能 
够 把 复杂 的 信息 内 容 视觉 化 、 图 像 化 、 文 字 化 ， 帮 助 用 户 看 到 不 同事 物 之 间 的 关系 、 联 
系 以 及 发 展 的 趋势 和 走向 。 

从 《纽约 时 报 》 的 案例 可 见 ， 以 构建 IT 运营 平台 为 中 心 的 时 代 即 将 过 去 ， 世 界 已 经 
跨 进 了 以 数据 分 析 和 挖掘 为 中 心 的 智能 时 代 。 


15.3.5 【案例 】 大 数据 带 来 逼真 的 影视 特效 


2012 年 夏天 上 映 的 《 百 万 巨 鲍 ) 是 国内 首部 特效 惊悚 怪兽 类 型 电影 片 中 的 真正 主 
角 是 一 条 名 叫 “ 阿 毛 ” 的 长 八 米 重 达 两 吨 的 巨型 鳄鱼 。 

巨 鲍 “ 阿 毛 ” 完 全 由 特效 制作 产生 ， 特 效 制作 动物 的 关键 就 在 于 质感 一 一 皮肤 的 柔 
软 度 ， 牙 齿 、 眼 神 等 细小 部 位 的 刻画 ， 稍 有 不 慎 就 很 容易 露 恢 ， 如 图 15-12 所 示 。 为 此 ， 


制作 方 北京 歌 亮 传 媒 有 限 公司 召集 了 国内 最 项 级 的 特效 技术 人 员 ， 花 了 3 个 月 的 时 间 为 
鳄鱼 形象 作 准备 。 特 效 制作 过 程 分 为 多 个 工种 ， 如 建 模 、 灯 光 、 材 质 、 泻 染 、 动 画 、 骨 
骼 、 肌 肉 动力 学 、 特 效 、 毛 发 等 。 其中， 水 和 毛发 的 制作 被 认为 是 最 难 制作 的 特效 种 类 ， 
但 这 也 是 电影 《 百 万 巨 鳄 》 中 运用 最 多 的 部 分 。 


上 


图 15-12 利用 大 数据 技术 制作 出 逼真 的 巨 鲜 眼 睛 


《 百 万 巨 鲍 》 的 拍摄 和 制作 周期 超过 3 年 ， 其 中 大 量 的 时 间 都 花 在 了 特效 制作 上 。 
如 何在 有 限 的 工期 内 高 效 地 完成 全 片 的 特效 制作 工作 ， 要 求 歌 亮 传 媒 的 存储 系统 拥有 更 
好 的 MO 处 理 能 力 和 更 高 的 数据 吞吐 量 、 更 快 的 图 片 泻 染 和 下 载 速度 ， 大 幅 减 少数 据 量 
大 造成 的 系统 处 理 瓶 颈 ， 从 而 实现 更 适合 海量 影像 文件 处 理 的 数据 管理 、 虚 拟 化 和 数据 
保护 。 

针对 歌 亮 传 媒 的 行业 特点 和 应 用 需求 ， 日 立 数据 系统 为 歌 亮 传 媒 提供 了 适合 于 影视 
行业 海量 图 片 及 非 结构 化 数据 信息 处 理 的 存储 解决 方案 : 以 HNAS 3090 为 核心 的 数据 
处 理解 决 方案 ， 助 力 歌 亮 传媒 实现 对 海量 影像 数据 的 高 效 管理 以 及 基于 底层 的 自动 归 
档 ， 从 而 有 效 提升 了 其 IT 系统 能 力 , 它 不 仅 减少 了 后 期 制作 人 力 消耗 , 更 关键 的 是 大 大 
缩短 了 影片 的 上 市 时 间 。 

通过 大 数据 存储 解决 方案 ， 歌 亮 的 整个 系统 的 数据 读 取 速度 得 到 了 明显 提升 一 一 可 
以 同时 为 多 人 提供 优越 的 读 写 服务 ， 散 文件 读 写 也 更 加 流畅 ， 特 效 师 和 相关 工作 人 员 直 
接 获 得 影像 文件 的 速度 提高 了 30% ~ 40%， 这 大 大 提高 了 特效 师 们 的 创作 效率 ， 也 不 会 
让 一 些 即 兴 的 创作 灵感 因为 数据 调用 的 等 待 而 消失 歼 尽 。 

【 案例 解析 】)， 从 《 百 万 巨 鲍 》 这 部 电影 的 实践 来 看 ， 高 精 尖 的 数据 专业 技术 人 才 
对 于 电影 的 成 功 至 关 重 要 。 电 影 的 一 个 主要 功能 是 娱乐 大 众 ， 只 有 不 断 地 制造 出 惊人 和 
震撼 的 效果 才能 更 好 地 实现 电影 的 娱乐 功能 。 在 电影 创作 的 过 程 中 ， 技 术 无 疑 是 最 大 的 
闪光 点 。 

在 商业 社会 中 , “从 数据 中 得 到 价值 ”一 直 都 不 是 什么 新 鲜 的 东西 ， 但 是 当 大 数据 
时 代 到 来 时 ， 经 济 的 新 增 量 逐渐 显露 出 来 。 如 今 ， 电 影 内 容 的 创新 与 技术 的 创新 已 经 融 
为 一 体 。 从 电影 产业 的 发 展 来 看 ， 像 大 数据 这 样 的 信息 技术 为 电影 创作 提供 支撑 已 经 是 
大 势 所 趋 。 
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15.4 ”生活 中 的 大 数据 应 用 案 全 


大 数据 ， 对 普通 老百姓 而 言 , 已 经 不 再 是 一 个 陌生 的 词语 。 在 这 个 海量 信息 的 时 代 ， 
大 数据 无 时 无 刻 不 在 影响 、 惠 及 、 改 变 着 我 们 的 生活 。 我 们 在 日 常生 活 中 所 做 的 一 切 都 
会 留 下 数字 痕迹 ( 或 者 数据 )， 也 就 是 大 数据 ， 我 们 可 以 利用 和 分 析 这 些 数据 来 让 我 们 
的 生活 更 加 美好 。 本 节 主 要 介绍 大 数据 在 生活 方面 的 应 用 案例 ， 希 望 对 读者 有 一 定 的 启 
发 和 学 习 价值 。 


15.4.1 【案例 】 大 数据 让 你 的 生活 更 智能 


我 们 经 常会 在 匆忙 外 出 的 时 候 ， 忘 记 关闭 正在 使 用 的 家 电 ， 例 如 电磁 炉 、 空 调 等 。 
回想 起 来 的 时 候 ， 心 里 不 免 情 届 不 安 ， 总 是 会 犹 驳 是 否 要 回 家 关闭 。 有 强迫 症 的 人 们 还 
会 在 外 出 时 担心 门 是 否 已 锁 好 等 问题 。 

SmartThings 为 我 们 提供 了 更 智能 的 方法 。SmartThings 公司 可 以 帮助 用 户 在 家 里 
安装 动力 、 湿 度 和 其 他 传感器 ， 让 你 了 解 家 里 正在 发 生 的 事情 ， 同 时 通过 iPhone 上 的 
应 用 程序 来 控制 家 里 的 所 有 设备 ， 如 图 15-13 所 示 。 


图 15-13 通过 iPhone 上 的 应 用 程序 来 控制 家 里 的 所 有 设备 


SmartThings 采用 了 一 种 系统 ， 可 以 将 我 们 日 常 使 用 的 实物 连接 到 基于 云 的 控制 中 
心 。 该 设备 的 重点 指向 是 让 一 些 终端 设备 连接 至 SmartThings 中 心 ， 例 如 自动 门 锁 、 自 
动 调 温 器 、 电 源 插座 开关 等 。 

例如 ， 你 可 以 用 SmartThings 来 完成 以 下 工作 : 

> ”如 果 宠物 跑 出 了 院子 ， 能 够 收 到 一 个 “ 哦 ， 狗 狗 跑 啦 !” 的 通知 。 

> ”如 果 浴室 或 者 地 下 室 发 生 了 漏水 事件 ， 能 够 很 快 收 到 “漏水 啦 ” 的 通知 。 

> 能够 用 “安全 存储 ”功能 ， 监 控 存 放 贵 重 物品 的 箱子 或 者 抽 居 是 否 被 打开 。 

> ”如 果 在 社交 网 络 里 面 收 到 新 的 粉丝 或 @ 时 ， 能 够 通过 手机 上 的 渐变 灯光 提醒 用 户 。 

据悉 ，SmartThings 和 现 有 的 自动 家 用 设备 标准 兼容 ， 适 用 于 数 百 个 现 有 设备 。 


D> 


【 案例 解析 } 在 本 案例 中 , SmartThings 通过 收集 家 庭 生活 的 种 种 数据 ， 并 利用 云 
计算 处 理 数据 ， 可 以 使 生活 中 的 每 样 东西 都 变 得 智能 。 这 样 打开 了 无 穷 的 可 能 性 和 无 限 
的 潜力 ， 让 用 户 的 生活 更 加 轻松 、 舒 适 和 有 趣 。 


15.4.2 【案例 】 数据 能 够 开口 说 话 当 红娘 


如 果 大 数据 能 让 谷歌 预测 出 2013 年 美国 将 爆发 流感 ， 让 微软 公司 成 功 预言 奥斯卡 
金 像 奖 14 项 大 奖 中 的 13 项 ， 那 么 大 数据 是 否 也 能 帮助 单身 者 更 快 地 找到 对 象 呢 ? 

2012 年 底 ， 网 易 旗下 全 新 婚恋 交友 网 站 “花田 ”上 线 。 "花田 ”以 免费 沟通 为 卖点 ， 
据 弃 传统 婚恋 网 站 的 “人 工 红娘 "， 从 推荐 到 搜索 全 由 系统 自动 完成 。 "花田 ”用 大 数据 
的 精准 化 运营 ， 为 在 海量 异性 资料 中 疲 于 搜索 的 用 户 “ 指 一 条 明 路 "。 

“花田 ”系统 会 自动 推荐 那些 相对 活跃 、 最 近 有 信息 流 更 新 的 人 ， 这 就 促使 用 户 拿 
出 更 新 微 博 的 劲头 来 更 新 “花田 "， 为 其 积累 了 大 量 可 供 分 析 的 软 性 数据 。 目 前 , "花田 ” 
开发 团队 正 试图 通过 自然 语言 处 理 技术 和 语义 分 析 方 法 来 解码 用 户 性 格 ， 实 现 “ 软 硬 兼 
施 ” 的 精准 推荐 。 

“花田 ”在 对 海量 软 硬 数据 进行 分 析 的 基础 上 ， 总 结 出 一 些 人 物 特征 ， 建 立 起 一 定 
数量 的 人 物 模 型 。 再 分 析 具 体 用 户 ， 将 其 分 门 别 类 套 入 各 种 模型 。 这 样 ， 用 户 心仪 其 中 
某 一 个 人 ， 便 可 向 其 推荐 这 一 类 人 。 "花田 ”试图 将 更 高 级 的 人 脸 识 别 ， 如 五 官 识别 、 
夫妻 相 匹配 作为 自己 的 增值 服务 收费 点 ， 对 于 此 ， 尚 有 待 进一步 的 技术 突破 。 

“花田 ”还 推出 一 个 问答 题库 系统 Q&A， 通 过 设置 价值 观 、 兴 趣 爱好 、 生 活 习惯 、 

爱情 观 等 分 类 问题 ， 让 用 户 参与 答题 。 目 前 ， 花 田 平台 预 设 300 道 QA 题 , 已 经 有 20% 
左右 的 用 户 拥有 Q&A 数据 ， 平 台 用 户 答题 数据 量 达 到 千 万 级 。 "花田 ”通过 对 Q&A 数 
据 的 分 析 ， 能 够 发 现 两 个 异性 之 间 在 生活 习惯 、 价 值 观 、 兴 趣 爱好 等 方面 的 契合 度 ， 建 
立 数据 模型 ， 促 使 用 户 快速 找到 沟通 的 话题 ， 如 图 15-14 所 示 。 


?QA 问 合 度 


10/41 问 合 


时 二 20/69 识 合 寺 @w51/62 过 合 。 阐 国 W128/54 操 合 
六 55 各 过 30 QA , = 中 了] 7 让 符 宁 相同 
53996. 
图 15-14 ”Q&A 数据 的 分 析 
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自 2012 年 12 月 28 日 向 全 国 开放 注册 以 来 ,“ 花 田 ” 注 册 用 户 已 近 25 万 ， 每 日 活 
跃 用 户 达 4 万 人 。 

【 案例 解析 }， 在 本 案例 中 ， 通 过 挖掘 全 站 用 户 数据 ， 并 结合 用 户 注册 产品 和 使 用 
产品 的 时 间 ， 网 易 “ 花 田 ” 可 以 精准 地 为 用 户 推荐 合适 的 匹配 对 象 ， 就 像 是 专门 定制 的 
一 样 。 


专家 提醒 
数据 分 析 不 只 可 用 于 精准 推荐 , 还 能 识别 婚恋 网 站 最 为 人 诉 病 的 造假 和 诈骗 。 例 如 ， 世 
纪 佳 缘 的 数据 分 析 团 队 开发 出 一 套 网 警 系 统 , 使 自己 由 以 往 的 被 动 等 竺 用户 举报 骗子 ， 改 为 
主动 出 击 。 网 警 系统 的 原理 是 收集 并 分 析 骗 子 行为 模式 的 数据 ， 制 作出 一 套 骗 子 识别 模型 。 


15.4.3 【案例 】 大 数据 保障 人 身 财产 安全 


小 说 里 的 神探 ， 不管 是 福尔摩斯 、 波 洛 ， 还 是 狄仁杰 、 柯 南 ， 都 有 一 个 共同 的 特点 ， 
那 就 是 有 一 个 具备 强大 分 析 能 力 的 大 脑 ， 他 们 能 够 观察 到 细小 的 证 据 ， 并 把 这 些 证 据 关 
联 起 来 ， 分 析出 犯罪 事实 。 

目前 ， 美 国 中 央 情 报 局 已 经 开始 利用 大 数据 技术 追踪 恐怖 分 子 和 监控 社会 情绪 。 就 
像 可 口 可 乐 等 消费 公司 借助 数据 分 析 掌 握 消 费 者 习惯 一 样 ， 中 情 局 也 通过 大 数据 技术 来 
寻找 恐怖 分 子 的 踪迹 。 此 外 ， 大 数据 分 析 可 以 了 解 多 少 人 和 哪些 人 正在 从 温和 立场 变 得 
更 为 激进 ， 并 “算出 ” 谁 可 能 会 采取 对 某 些 人 有 害 的 行动 。 

美国 孟菲斯 市 警察 局 启用 Blue CRUSH 预测 型 分 析 系统 后 , 使 过 去 五 年 暴力 犯罪 率 
大 幅 下 降 。 最 近 ， 美 国 马里 兰州 和 宾夕法尼亚 州 也 开始 启用 一 种 能 极 大 降低 凶杀 犯罪 率 
的 犯罪 预测 软件 ， 其 不 但 能 预测 罪犯 假释 或 者 缓刑 期 间 的 犯罪 可 能 性 ， 还 能 成 为 法 庭 假 
释 条 款 和 审判 的 参考 依据 。 

例如 ， 美 国 加 利 福 尼 亚 州 圣 克 鲁 效 市 采用 大 数据 算法 可 以 计算 出 某 时 某 地 罪案 ( 入 
室 行窃 、 抢 动 、 偷 车 ， 但 不 包括 杀人 案 ) 发 生 的 几率 。 在 过 去 两 年 中 ， 该 市 的 大 约 100 
名 巡警 在 巡 罗 时 会 有 针对 性 地 出 巡 ， 他 们 携带 的 电子 卡 上 会 显示 出 附近 最 有 可 能 发 生 罪 
案 的 15 处 地 点 。 而 在 三 分 之 二 的 情况 下 ， 大 数据 算法 预测 的 罪案 都 确实 发 生 了 。 

引入 这 个 大 数据 算法 后 ， 圣 克 鲁 效 市 的 入 室 行 窃 案 件 减 少 了 11%， 偷 车 案 减 少 了 
8%,， 相 应 地 ， 逮 捕 罪 犯 的 成 功率 则 提高 了 56%。 现 在 ， 美 国 已 经 有 超过 10 市 的 警察 局 
引入 了 这 个 大 数据 算法 ， 其 中 包括 洛杉矶 、 波 士 顿 和 芝加哥 。 

【 案例 解析 }， 在 本 案例 中 ， 大 数据 分 析 已 经 被 用 在 刑事 侦破 领域 ， 这 为 破获 一 些 
疑难 杂 案 、 保 障 老 百姓 的 人 身 和 财产 安全 提供 了 一 种 新 的 技术 支持 。 其 中 ， 人 脸 识别 技 
术 的 应 用 就 是 大 数据 挖掘 的 一 个 典型 例子 。 

大 数据 分 析 的 工具 从 长 期 来 说 ， 可 以 加 速 办 案 效 率 ， 优 化 警力 资源 分 配 ， 从 而 提高 
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社会 和 公众 安全 水 平 。 随 着 警 用 大 数据 工具 的 不 断 成 熟 ， 以 及 “ 物 联网 + 社交 网 络 + 大 
数据 + 云 计 算 ” 的 高 速 融合 发 展 ， 执 法 部 门 的 犯罪 侦破 和 预防 将 进入 一 个 全 新 的 大 数据 
时 代 。 
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专家 提醒 
虽然 大 数据 分 析 可 以 预测 和 阻止 某 些 安全 事故 的 发 生 ， 但 事后 的 弥补 也 相当 重要 。 大 数 
据 分 析 可 被 用 来 对 过 去 事故 评价 分 析 , 定位 潜在 的 风险 根源 以 及 检测 可 导致 安全 事故 的 潜在 
苗头 。 


15.4.4 【案例 】 用 大 数据 安全 保管 门 钥 是 


你 是 否 遇 到 过 不 小 心 丢失 或 找 不 到 钥匙 的 情况 ， 如 今 找 一 位 开锁 匠 来 开门 的 话 ， 除 
却 高 昂 的 人 工 费 不 说 ， 还 费时 费力 不 安全 。 针 对 这 一 情况 ， 纽 约 市 有 一 家 名 为 KeyMe 
的 公司 为 大 家 带 来 了 一 个 实用 的 解决 方案 一 一 KeyMe 钥匙 存储 /复制 机 。 

KeyMe 将 该 机 器 部 署 到 了 纽约 市 的 7 ~ 11 个 便利 店 里 面 ， 有 需要 的 人 们 可 以 选择 
“数字 化 ”地 复制 并 存储 自己 的 钥匙 ， 以 便 在 紧急 情况 下 迅速 "还原 ”出 一 把 备用 钥匙 。 
KeyMe 的 外 形 类 似 于 一 台 自动 售 货 机 ， 操 作 也 非常 简单 ， 用 户 首先 在 线 创 建 一 个 账户 ， 
然后 机 器 会 扫描 钥匙 并 将 其 存储 在 云端 ， 如 图 15-15 所 示 。 如 果 用 户 的 钥匙 不 慎 丢 失 ， 
只 需 找 到 一 台 KeyMe, 通过 指纹 识别 便 可 以 迅速 还 原 出 一 把 钥匙 ,可 选 外 形 包括 装饰 性 
钥匙 、 组 合 型 钥匙 和 开 瓶 器 钥匙 。 
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图 15-15 KeyMe 


KeyMe 不 会 记录 钥匙 使 用 场景 的 信息 , 所 有 存储 在 云端 的 钥匙 模型 都 只 能 通过 指纹 
识别 才能 打开 ， 而 且 创建 KeyMe 账户 时 还 需要 使 用 一 张 安全 有 效 的 信用 卡 。 另 外 ， 每 
当 有 钥匙 被 还 原 出 来 时 ， 系 统 都 会 自动 给 用 户 发 一 封 验证 邮件 。 

【 案例 解析 }， 在 本 案例 中 ，KeyMe 的 创意 来 自 于 大 数据 的 云 存 储 ， 其 将 每 把 钥匙 
的 数据 保存 在 云端 。 与 August 和 Lockitron 等 智能 锁 相 比 ，KeyMe 更 加 便携 和 兼容 ， 


不 需要 电池 ， 更 不 会 崩溃 。 

对 于 使 用 云 服务 的 企业 来 说 ， 可 以 大 大 降低 前 期 成 本 投入 ， 并 将 更 多 的 资金 用 在 运 
营 方面 ， 而 且 由 于 不 再 需要 自身 去 管理 和 维护 服务 器 ， 他 们 会 有 更 多 的 时 间 和 精力 专注 
于 自身 的 主 营业 务 。 


15.4.5 【案例 】 地 图 APP 成 为 生活 好 助手 
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笔者 的 好 友 李 茂 是 个 不 折 不 扣 的 “地 理 白痴"， 所 以 他 下 载 了 一 个 高 德 地 图 。 只 
花 一 点 流量 ， 李 茂 就 能 在 地 图 上 查看 自己 所 处 的 位 置 ， 以 及 周围 的 建筑 。 
每 天 出 门 ， 你 打开 手机 上 的 地 图 App， 运 用 实时 交通 功能 ， 可 以 更 顺畅 地 到 达 目 的 


数据 令 很 多 细碎 繁琐 的 事情 落地 , “复杂 ” 才 决 定 了 “简单 "。 

高 德 地 图 生产 过 程 可 分 为 三 大 环节 : 数据 采集 、 数 据 生产 、 数 据 应 用 ， 如 图 15-16 
所 示 。 高 德 在 微 信 公众 平台 推出 了 服务 号 ， 可 以 供用 户 进 行 上 下 班 路 况 查 询 ， 这 同样 是 
基于 大 数据 的 服务 功能 。 


数据 生产 数据 应 用 
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数据 生产 分 为 导航 数据 数据 应 用 包括 : 车 载 /前 
生产 和 增值 数据 生产 。 导 装 、 无 线 位 置 服务 、 移 
航 数据 生产 的 内 容 为 : 道 动 导 航 、 互 联网 位 置 服 
路 生产 、POI 生产 、 背景 务 、 政 府 及 企业 应 用 。 
生产 、 图 片 生产 、 实 时 交 

通 、 三 维 城市 ; 增值 数据 

生产 的 内 容 为 : 运营 POI 

(Point of Interest) 和 深 

度 动态 信息 。 


图 15-16 ”高 德 地 图 生产 过 程 离 不 开 大 数据 


笔者 用 一 个 实景 比喻 来 解释 大 数据 究竟 能 做 到 如 何 智 能 ， 当 一 个 用 户 在 某 购物 网 站 
买 过 一 张 床 后 ， 他 面 对 的 不 应 该 是 隔 三 差 五 地 收 到 同类 产品 的 推荐 信息 ， 而 是 在 几 个 月 
后 收 到 特别 为 他 定制 的 配套 家 具 推 荐 。 而 在 地 图 应 用 中 ， 大 数据 同样 要 做 到 2.0 版 本 ， 
通过 个 性 化 的 分 析 ， 做 到 量 身 定制 的 主动 服务 。 例 如 ， 当 你 快 下 班 时 ， 就 会 收 到 一 条 推 
送信 息 ， 告 诉 你 今天 回 家 路 上 堵 不 堵 ， 走 哪 条 路 最 划算 。 


2013 年 5 月 ， 阿 里 巴巴 宣布 对 高 德 地 图 战略 投资 2.94 亿美 元 ， 持 有 高 德 28% 的 股 
份 ， 成 为 高 德 第 一 大 股东 。 阿 里 巴巴 表示 入 股 高 德 之 后 ， 会 以 移动 互联 网 位 置 服务 和 深 
度 生活 服务 的 基础 设施 作为 切入 点 ， 日 后 也 将 在 数据 建设 、 地 图 引擎 、 产 品 开发 、 云 计 
算 、 推 广 和 商业 化 等 多 个 层面 展开 合作 。 

根据 相关 统计 数据 显示 ， 高 德 导航 地 图 在 国内 被 广泛 使 用 ， 占 有 26% 的 市 场 份额 。 
截止 到 2013 年 第 一 季 末 ， 这 款 应 用 每 个 月 拥有 2900 万 个 活跃 用 户 ， 而 且 总 用 户 数 在 
5200 万 以 上 。 

【 案例 解析 }， 在 本 案例 中 ， 地 图 APP 不 仅 能 凭借 大 数据 ， 为 公众 出 行 提 供 实 时 交 
通信 息 ， 还 能 整合 生活 服务 ， 起 到 O2O 总 入 口 平 台 的 作用 。 通 过 商家 服务 信息 与 地 理 
信息 的 数据 融合 ， 地 图 将 给 用 户 带 来 更 便捷 的 使 用 体验 。 

地 图 本 身 承 载 着 各 种 各 样 的 商业 机 构 ， 无 论 是 路 边 商店 、 实 体 店 ， 还 是 日 常生 活 中 
和 吃喝 玩乐 、 衣 食 住 行 相关 的 机 构 ， 都 在 地 图 上 有 所 体现 。 因 此 ， 地 图 天 然 就 具备 承载 
各 类 生活 服务 的 平台 属性 。 
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